일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 카플란마이어
- ggplot()
- ggplot2
- 의사결정나무
- R select
- 콕스비례모형
- Bias-Variance Tradeoff
- ISLR
- R 연습문제
- 주식데이터시각화
- 이산형 확률분포
- R dplyr
- R 결측치
- ggsurvplot
- 강화학습 #추천서적 #강화학습인액션
- 교차타당성
- 미국 선거데이터
- R mutate
- 데이터 핸들링
- 생존그래프
- R문법
- R
- R filter
- 데이터핸들링
- geom_errorbar
- dplyr
- 확률실험
- 생존분석
- CrossValidation
- R ggplot2
- Today
- Total
Must Learning With Statistics
이항분포(Binomial Distribution) 본문
3. 이항분포(Binomial distribution)
- 베르누이 시행 : 가능한 결과가 배타적인 두 가지 중 하나로 나타나는 확률 실험
- 이항분포 : 성공확률이 $p$인 베르누이 시행을 독립적으로 $n$번 실행하였을 때, 성공의 수를 확률변수로 정의하는 분포
이항분포는 확률변수가 배타적인 두 가지 범주를 갖고 각 시행은 독립적인 경우에서의 분포입니다. 이 시행을 베르누이 시행이라고도 합니다.
여기서 독립적이라는 것은 각 시행이 다른 시행에 전혀 영향을 미치지 않는다는 것입니다. 간단한 예로 팀원 중 10주 동안 무작위로 돌아가면서 당직을 서는데 남자가 당식을 서는 횟수에 관심이 있다고 합시다. 성별은 남자, 여자 두 가지 경우만 상호 배타적으로 존재하므로 조건에 부합합니다. 그런데 만약 한 번 뽑힌 사람을 다음 당직 때 후보에서 제외하게 된다면 이는 각 시행이 독립적이지 않습니다. 그렇지 않고 계속 동일한 후보군에서 무작위로 뽑게 된다면 각 시행은 독립적이라고 할 수 있을 것입니다.
조금 더 상황을 일반화시켜 봅시다. 시행은 총 $n$번의 독립적인 베르누이시행에서 관심 있는 범주가 나올 확률이 $p$라고 해봅시다. 이런 조건들이 이항분포를 결정짓는 '상황'이며, 여기서 이항분포는 관심 있는 범주가 나오는 횟수 $y$를 확률변수로하는 분포입니다.
이제 이항분포의 확률함수를 만들어 볼 수 있습니다.
성공확률이 0.6인 이항분포 생성
library(ggplot2)
# 난수 생성
RB = rbinom(n = 400 , size = 1,prob = 0.6)
ggplot(NULL) +
geom_bar(aes(x = as.factor(RB), fill = as.factor(RB))) +
theme_bw() +
xlab("") + ylab("") +
scale_x_discrete(labels = c("실패","성공")) +
theme(legend.position = 'none')
$$
Y \sim Bin(n,p) \ 이면,
$$
$$
P(Y=y) = \left(\begin{array}{r} n\ y\
\end{array}\right) p^{y} (1-p)^{n-y}, \
,y=0,1,2\cdots n
$$
이 pmfpmf를 통해서 관심 있는 범주가(편의상 성공이라고 하겠습니다.) nn개중 하나도 나오지 않을 확률부터 nn개 중 nn개를 성공할 확률을 구할 수 있습니다. 또한 이러한 형태의 이항분포의 평균과 분산은 각각 npnp, np(1−p)np(1−p)입니다. 이를 다음과 같이 표현합니다.
$$
E[Y]=np\qquad V[Y]= np(1-p)
$$
예시
위의 수식을 R로 구현해보면 다음과 같습니다.
library(ggplot2)
# 난수 생성
X = c()
P = c()
for(k in 1:10){
RDB = dbinom(x = k, size = 10,prob = 0.4)
X = c(X,k)
P = c(P,RDB)
}
ggplot(NULL) +
geom_bar(aes(x = X, y = P),stat = 'identity') +
theme_bw() +
scale_x_continuous(breaks = seq(1,10)) +
xlab("성공횟수") + ylab("확률")
X = c()
P = c()
for(k in 1:10){
RDB = dbinom(x = k, size = 10,prob = 0.8)
X = c(X,k)
P = c(P,RDB)
}
ggplot(NULL) +
geom_bar(aes(x = X, y = P),stat = 'identity') +
theme_bw() +
scale_x_continuous(breaks = seq(1,10)) +
xlab("성공횟수") + ylab("확률")
)
총 10번 실험을 한다고 가정하였을때, 왼쪽은 성공확률이 0.2일 때, 성공횟수에 따른 성공확률을 나타내며, 우측은 성공확률이 0.8일 때, 성공횟수에 따른 성공 확률을 의미합니다.
'통계 이론' 카테고리의 다른 글
연속형 확률분포 (0) | 2020.03.22 |
---|---|
포아송분포 (Poisson Distribution) (0) | 2020.03.22 |
다항분포(Multinomial Distribution) (0) | 2020.03.22 |
이산형 확률분포 (0) | 2020.03.22 |
표본공간과 확률변수 (0) | 2020.03.22 |