일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- R문법
- 주식데이터시각화
- 확률실험
- 이산형 확률분포
- ISLR
- 데이터 핸들링
- R ggplot2
- dplyr
- ggsurvplot
- R select
- 미국 선거데이터
- 교차타당성
- 생존분석
- Bias-Variance Tradeoff
- 카플란마이어
- R filter
- ggplot()
- geom_errorbar
- R 연습문제
- R mutate
- ggplot2
- 의사결정나무
- R 결측치
- 콕스비례모형
- 데이터핸들링
- R
- 강화학습 #추천서적 #강화학습인액션
- 생존그래프
- R dplyr
- CrossValidation
- Today
- Total
Must Learning With Statistics
다항분포(Multinomial Distribution) 본문
4. 다항분포(multinomial distribution)
- 다항분포 : 실험결과가 $k$개인 확률실험을 $n$번 반복하였을 때, 각 범주에 속하는 횟수를 확률변수로 하는 분포
다항분포는 이항분포의 확장입니다. 이항분포가 $n$번 시행에서 확률변수가 가질 수 있는 범주가 성공/실패 두 가지였다면, 다항분포에서는 $n$번 시행에서 확률변수가 가질 수 있는 범주가 $k$가지로 확장됩니다. 반대로 $k=2$인 경우, 이항분포가 됩니다. $K=3$인 경우인 다음 표를 보겠습니다.
RM = as.data.frame(t(rmultinom(n = 1,size = 10,prob = c(0.2,0.5,0.3))))
RM = colSums(RM)
ggplot(NULL) +
geom_bar(aes(x = names(RM), y= RM,fill = names(RM)),stat = 'identity') +
theme_bw() +
theme(legend.position = 'none') +
scale_x_discrete(labels = c("1","2","3")) +
xlab("") + ylab("")
)
위의 경우는 총 $n$개의 독립적인 시행 중 범주1이 $x$개 범주2가 $y$개 나올 확률을 나타내는 다항분포입니다.
$n$번의 시행이니 당연히 마지막 범주는 $n-x-y$개가 될 것이고 확률은 $1-p1-p2$가 될 것입니다. 즉, 확률변수가 2개입니다. 한 분포에 꼭 확률변수가 한 개만 있으리란 법은 없습니다. 이를 확장해서 범주가 $k$개 있는 경우를 상상하면 $k-1$개의 확률변수를 갖는 확률분포가 됨을 짐작할 수 있습니다. 마지막 범주는 위 표처럼 나머지 범주에 종속되기 때문입니다.
범주가 $k$개인 다항분포의 확률함수를 보겠습니다.
$$
(X_1, X_2,\cdots ,X_{k-1} ) \sim Multin(n,p_1 ,p_2, \cdots , p_{k-1})
$$
$$
P(X_1 = x_1 , ; X_2 = x_2,\cdots X_{k-1} =x_{k-1}) = \frac {n!}{x_1! x_2! \cdots; x_{k-1}! x_k!} p_1^{x_1}p_2^{x_2}\cdots p_{k-1}^{x_{k-1}}p_k^{x_k}
$$
$$
x_k = (n-x_1 - x_2 - \cdots -x_{k-1} )\ , \ p_k = (1-p_1 -p_2-\cdots -p_{k-1})
$$
식은 조금 복잡하지만 어렵게 생각하실 필요 없이 다음과 같은 논리를 생각하시면 됩니다.
$$
(첫\ 범주\ 확률)^{첫\ 범주\ 갯수}\quad \times \quad (다음\ 범주\ 확률)^{다음\ 범주\ 갯수} \quad \times \quad \cdots \ \quad \times \quad (마지막\ 범주\ 확률)^{마지막\ 범주\ 갯수}
$$
그리고 그 범주의 조합을 곱해주어서 해당 확률을 구하는 것이죠. 이 역시 데이터의 상황이 분포를 결정합니다. 다음의 예시를 통해 다항분포 문제를 다루어보도록 하겠습니다.
예시
눈이 3까지 있는 주사위를 10회 던졌을 때,
위 경우의 결과가 나오게 되는 확률을 계산하도록 하겠습니다.
# p.m.f 계산
n_F = factorial(10)
x_F = factorial(5) * factorial(3) * factorial(2)
Prob = (n_F / x_F) * (1/3)^5 * (1/3)^3 * (1/3)^2
Prob
[1] 0.04267642
# 명령어 활용
dmultinom(c(5,3,2),prob = c(1/3,1/3,1/3))
[1] 0.04267642
$$
P[x_1=5,x_2=3,x_3=2]=0.04
$$
'통계 이론' 카테고리의 다른 글
연속형 확률분포 (0) | 2020.03.22 |
---|---|
포아송분포 (Poisson Distribution) (0) | 2020.03.22 |
이항분포(Binomial Distribution) (0) | 2020.03.22 |
이산형 확률분포 (0) | 2020.03.22 |
표본공간과 확률변수 (0) | 2020.03.22 |