Must Learning With Statistics

다항분포(Multinomial Distribution) 본문

통계 이론

다항분포(Multinomial Distribution)

Doublek Park 2020. 3. 22. 13:04
4. 다항분포(multinomial distribution)
  • 다항분포 : 실험결과가 $k$개인 확률실험을 $n$번 반복하였을 때, 각 범주에 속하는 횟수를 확률변수로 하는 분포

다항분포는 이항분포의 확장입니다. 이항분포가 $n$번 시행에서 확률변수가 가질 수 있는 범주가 성공/실패 두 가지였다면, 다항분포에서는 $n$번 시행에서 확률변수가 가질 수 있는 범주가 $k$가지로 확장됩니다. 반대로 $k=2$인 경우, 이항분포가 됩니다. $K=3$인 경우인 다음 표를 보겠습니다.

RM = as.data.frame(t(rmultinom(n = 1,size = 10,prob = c(0.2,0.5,0.3))))
RM = colSums(RM)

ggplot(NULL) +
  geom_bar(aes(x = names(RM), y= RM,fill = names(RM)),stat = 'identity') +
  theme_bw() +
  theme(legend.position = 'none') +
  scale_x_discrete(labels = c("1","2","3")) +
  xlab("") + ylab("")

)

위의 경우는 총 $n$개의 독립적인 시행 중 범주1이 $x$개 범주2가 $y$개 나올 확률을 나타내는 다항분포입니다.
$n$번의 시행이니 당연히 마지막 범주는 $n-x-y$개가 될 것이고 확률은 $1-p1-p2$가 될 것입니다. 즉, 확률변수가 2개입니다. 한 분포에 꼭 확률변수가 한 개만 있으리란 법은 없습니다. 이를 확장해서 범주가 $k$개 있는 경우를 상상하면 $k-1$개의 확률변수를 갖는 확률분포가 됨을 짐작할 수 있습니다. 마지막 범주는 위 표처럼 나머지 범주에 종속되기 때문입니다.

범주가 $k$개인 다항분포의 확률함수를 보겠습니다.

$$
(X_1, X_2,\cdots ,X_{k-1} ) \sim Multin(n,p_1 ,p_2, \cdots , p_{k-1})
$$

$$
P(X_1 = x_1 , ; X_2 = x_2,\cdots X_{k-1} =x_{k-1}) = \frac {n!}{x_1! x_2! \cdots; x_{k-1}! x_k!} p_1^{x_1}p_2^{x_2}\cdots p_{k-1}^{x_{k-1}}p_k^{x_k}
$$

$$
x_k = (n-x_1 - x_2 - \cdots -x_{k-1} )\ , \ p_k = (1-p_1 -p_2-\cdots -p_{k-1})
$$

식은 조금 복잡하지만 어렵게 생각하실 필요 없이 다음과 같은 논리를 생각하시면 됩니다.

$$
(첫\ 범주\ 확률)^{첫\ 범주\ 갯수}\quad \times \quad (다음\ 범주\ 확률)^{다음\ 범주\ 갯수} \quad \times \quad \cdots \ \quad \times \quad (마지막\ 범주\ 확률)^{마지막\ 범주\ 갯수}
$$

그리고 그 범주의 조합을 곱해주어서 해당 확률을 구하는 것이죠. 이 역시 데이터의 상황이 분포를 결정합니다. 다음의 예시를 통해 다항분포 문제를 다루어보도록 하겠습니다.

예시

눈이 3까지 있는 주사위를 10회 던졌을 때,

위 경우의 결과가 나오게 되는 확률을 계산하도록 하겠습니다.

# p.m.f 계산
n_F = factorial(10)
x_F = factorial(5) * factorial(3) * factorial(2)
Prob = (n_F / x_F) * (1/3)^5 * (1/3)^3 * (1/3)^2
Prob
[1] 0.04267642
# 명령어 활용
dmultinom(c(5,3,2),prob = c(1/3,1/3,1/3))
[1] 0.04267642

$$
P[x_1=5,x_2=3,x_3=2]=0.04
$$

'통계 이론' 카테고리의 다른 글

연속형 확률분포  (0) 2020.03.22
포아송분포 (Poisson Distribution)  (0) 2020.03.22
이항분포(Binomial Distribution)  (0) 2020.03.22
이산형 확률분포  (0) 2020.03.22
표본공간과 확률변수  (0) 2020.03.22
Comments