이항분포(Binomial Distribution)

Notice

Recent Posts

Recent Comments

Link

« 2025/11 »
일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

Tags more

Archives

Today

Total

관리 메뉴

Must Learning With Statistics

이항분포(Binomial Distribution) 본문

통계 이론

이항분포(Binomial Distribution)

Doublek Park 2020. 3. 22. 13:03

3. 이항분포(Binomial distribution)

베르누이 시행 : 가능한 결과가 배타적인 두 가지 중 하나로 나타나는 확률 실험
이항분포 : 성공확률이 $p$인 베르누이 시행을 독립적으로 $n$번 실행하였을 때, 성공의 수를 확률변수로 정의하는 분포
이항분포는 확률변수가 배타적인 두 가지 범주를 갖고 각 시행은 독립적인 경우에서의 분포입니다. 이 시행을 베르누이 시행이라고도 합니다.

여기서 독립적이라는 것은 각 시행이 다른 시행에 전혀 영향을 미치지 않는다는 것입니다. 간단한 예로 팀원 중 10주 동안 무작위로 돌아가면서 당직을 서는데 남자가 당식을 서는 횟수에 관심이 있다고 합시다. 성별은 남자, 여자 두 가지 경우만 상호 배타적으로 존재하므로 조건에 부합합니다. 그런데 만약 한 번 뽑힌 사람을 다음 당직 때 후보에서 제외하게 된다면 이는 각 시행이 독립적이지 않습니다. 그렇지 않고 계속 동일한 후보군에서 무작위로 뽑게 된다면 각 시행은 독립적이라고 할 수 있을 것입니다.

조금 더 상황을 일반화시켜 봅시다. 시행은 총 $n$번의 독립적인 베르누이시행에서 관심 있는 범주가 나올 확률이 $p$라고 해봅시다. 이런 조건들이 이항분포를 결정짓는 '상황'이며, 여기서 이항분포는 관심 있는 범주가 나오는 횟수 $y$를 확률변수로하는 분포입니다.

이제 이항분포의 확률함수를 만들어 볼 수 있습니다.

성공확률이 0.6인 이항분포 생성

library(ggplot2)

# 난수 생성
RB = rbinom(n = 400 , size = 1,prob = 0.6)

ggplot(NULL) +
  geom_bar(aes(x = as.factor(RB), fill = as.factor(RB))) +
  theme_bw() +
  xlab("") + ylab("") +
  scale_x_discrete(labels = c("실패","성공")) +
  theme(legend.position = 'none')

$$
Y \sim Bin(n,p) \ 이면,
$$

$$
P(Y=y) = \left(\begin{array}{r} n\ y\
\end{array}\right) p^{y} (1-p)^{n-y}, \
,y=0,1,2\cdots n
$$

이 pmfpmf를 통해서 관심 있는 범주가(편의상 성공이라고 하겠습니다.) nn개중 하나도 나오지 않을 확률부터 nn개 중 nn개를 성공할 확률을 구할 수 있습니다. 또한 이러한 형태의 이항분포의 평균과 분산은 각각 npnp, np(1−p)np(1−p)입니다. 이를 다음과 같이 표현합니다.

$$
E[Y]=np\qquad V[Y]= np(1-p)
$$
예시

위의 수식을 R로 구현해보면 다음과 같습니다.

library(ggplot2)

# 난수 생성

X = c()
P = c()

for(k in 1:10){

  RDB = dbinom(x = k, size = 10,prob = 0.4)

  X = c(X,k)
  P = c(P,RDB)

}

ggplot(NULL) +
  geom_bar(aes(x = X, y = P),stat = 'identity') +
  theme_bw() +
  scale_x_continuous(breaks = seq(1,10)) +
  xlab("성공횟수") + ylab("확률")


X = c()
P = c()


for(k in 1:10){

  RDB = dbinom(x = k, size = 10,prob = 0.8)

  X = c(X,k)
  P = c(P,RDB)

}


ggplot(NULL) +
  geom_bar(aes(x = X, y = P),stat = 'identity') +
  theme_bw() +
  scale_x_continuous(breaks = seq(1,10)) +
  xlab("성공횟수") + ylab("확률")

)

총 10번 실험을 한다고 가정하였을때, 왼쪽은 성공확률이 0.2일 때, 성공횟수에 따른 성공확률을 나타내며, 우측은 성공확률이 0.8일 때, 성공횟수에 따른 성공 확률을 의미합니다.

저작자표시 비영리 변경금지 (새창열림)

'통계 이론' 카테고리의 다른 글

연속형 확률분포 (0)	2020.03.22
포아송분포 (Poisson Distribution) (0)	2020.03.22
다항분포(Multinomial Distribution) (0)	2020.03.22
이산형 확률분포 (0)	2020.03.22
표본공간과 확률변수 (0)	2020.03.22

'통계 이론' Related Articles

Comments

Must Learning With Statistics

이항분포(Binomial Distribution) 본문

이항분포(Binomial Distribution)

3. 이항분포(Binomial distribution)

'통계 이론' 카테고리의 다른 글

티스토리툴바