Must Learning With Statistics

이항분포(Binomial Distribution) 본문

통계 이론

이항분포(Binomial Distribution)

Doublek Park 2020. 3. 22. 13:03
3. 이항분포(Binomial distribution)
  • 베르누이 시행 : 가능한 결과가 배타적인 두 가지 중 하나로 나타나는 확률 실험
  • 이항분포 : 성공확률이 $p$인 베르누이 시행을 독립적으로 $n$번 실행하였을 때, 성공의 수를 확률변수로 정의하는 분포
    이항분포는 확률변수가 배타적인 두 가지 범주를 갖고 각 시행은 독립적인 경우에서의 분포입니다. 이 시행을 베르누이 시행이라고도 합니다.

여기서 독립적이라는 것은 각 시행이 다른 시행에 전혀 영향을 미치지 않는다는 것입니다. 간단한 예로 팀원 중 10주 동안 무작위로 돌아가면서 당직을 서는데 남자가 당식을 서는 횟수에 관심이 있다고 합시다. 성별은 남자, 여자 두 가지 경우만 상호 배타적으로 존재하므로 조건에 부합합니다. 그런데 만약 한 번 뽑힌 사람을 다음 당직 때 후보에서 제외하게 된다면 이는 각 시행이 독립적이지 않습니다. 그렇지 않고 계속 동일한 후보군에서 무작위로 뽑게 된다면 각 시행은 독립적이라고 할 수 있을 것입니다.

조금 더 상황을 일반화시켜 봅시다. 시행은 총 $n$번의 독립적인 베르누이시행에서 관심 있는 범주가 나올 확률이 $p$라고 해봅시다. 이런 조건들이 이항분포를 결정짓는 '상황'이며, 여기서 이항분포는 관심 있는 범주가 나오는 횟수 $y$를 확률변수로하는 분포입니다.

이제 이항분포의 확률함수를 만들어 볼 수 있습니다.

성공확률이 0.6인 이항분포 생성

library(ggplot2)

# 난수 생성
RB = rbinom(n = 400 , size = 1,prob = 0.6)

ggplot(NULL) +
  geom_bar(aes(x = as.factor(RB), fill = as.factor(RB))) +
  theme_bw() +
  xlab("") + ylab("") +
  scale_x_discrete(labels = c("실패","성공")) +
  theme(legend.position = 'none')  

$$
Y \sim Bin(n,p) \ 이면,
$$

$$
P(Y=y) = \left(\begin{array}{r} n\ y\
\end{array}\right) p^{y} (1-p)^{n-y}, \
,y=0,1,2\cdots n
$$

이 pmfpmf를 통해서 관심 있는 범주가(편의상 성공이라고 하겠습니다.) nn개중 하나도 나오지 않을 확률부터 nn개 중 nn개를 성공할 확률을 구할 수 있습니다. 또한 이러한 형태의 이항분포의 평균과 분산은 각각 npnp, np(1−p)np(1−p)입니다. 이를 다음과 같이 표현합니다.

$$
E[Y]=np\qquad V[Y]= np(1-p)
$$
예시

위의 수식을 R로 구현해보면 다음과 같습니다.

library(ggplot2)

# 난수 생성

X = c()
P = c()

for(k in 1:10){

  RDB = dbinom(x = k, size = 10,prob = 0.4)

  X = c(X,k)
  P = c(P,RDB)

}

ggplot(NULL) +
  geom_bar(aes(x = X, y = P),stat = 'identity') +
  theme_bw() +
  scale_x_continuous(breaks = seq(1,10)) +
  xlab("성공횟수") + ylab("확률")


X = c()
P = c()


for(k in 1:10){

  RDB = dbinom(x = k, size = 10,prob = 0.8)

  X = c(X,k)
  P = c(P,RDB)

}


ggplot(NULL) +
  geom_bar(aes(x = X, y = P),stat = 'identity') +
  theme_bw() +
  scale_x_continuous(breaks = seq(1,10)) +
  xlab("성공횟수") + ylab("확률")

)

총 10번 실험을 한다고 가정하였을때, 왼쪽은 성공확률이 0.2일 때, 성공횟수에 따른 성공확률을 나타내며, 우측은 성공확률이 0.8일 때, 성공횟수에 따른 성공 확률을 의미합니다.

'통계 이론' 카테고리의 다른 글

연속형 확률분포  (0) 2020.03.22
포아송분포 (Poisson Distribution)  (0) 2020.03.22
다항분포(Multinomial Distribution)  (0) 2020.03.22
이산형 확률분포  (0) 2020.03.22
표본공간과 확률변수  (0) 2020.03.22
Comments