일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 주식데이터시각화
- R select
- dplyr
- 카플란마이어
- geom_errorbar
- 확률실험
- R mutate
- 의사결정나무
- ggsurvplot
- 생존분석
- ggplot2
- ISLR
- 데이터핸들링
- R ggplot2
- 콕스비례모형
- 강화학습 #추천서적 #강화학습인액션
- R문법
- 교차타당성
- 생존그래프
- 미국 선거데이터
- CrossValidation
- ggplot()
- R dplyr
- Bias-Variance Tradeoff
- R
- R 결측치
- 이산형 확률분포
- R 연습문제
- 데이터 핸들링
- R filter
- Today
- Total
Must Learning With Statistics
포아송분포 (Poisson Distribution) 본문
5. 포아송분포(Poisson Distribution)
-
포아송분포 : 일정 단위에서 평균 성공 수가 $\lambda$일 때 성공 횟수를 확률변수로 하는 분포
포아송 분포는 $n$이 충분히 크고 성공확률 $p$가 매우 작을 때, 이항분포에 대한 근사로 활용이 됩니다. 예를 들어 어떤 공장에서 10시간(일정 단위)마다 평균적으로 2개의 불량품(평균 성공 수 $\lambda$)이 발생된다면 불량품이 하나도 발생하지 않을 확률부터 수십, 수백개가 발생할 확률까지 성공 횟수에 따른 확률을 다루는 분포입니다.
RP = rpois(n = 100 ,lambda = 2)
ggplot(NULL) +
geom_bar(aes(x = as.factor(RP),fill = as.factor(RP))) +
theme_bw() +
xlab("성공횟수") + ylab("빈도") +
theme(legend.position = 'none')
포아송분포는우리 실생활에 정말 많이 적용될 수 있는 분포입니다. 빈도로 조사된 데이터는 전부 포아송분포를 적용하여 분석할 수 있기 때문이죠. 또한 포아송분포는 ’nn번 중 성공 횟수’의 분포인 이항분포와 매우 밀접한 관련이 있습니다. 이항분포의 평균은 npnp이고 이는 곧 ’평균 성공 수’의 관점으로 바라 볼 수 있기 때문입니다. 포아송분포의 확률을 계산하는 확률함수는 다음과 같습니다. 또한 위 그래프에서 성공 횟수가 증가할 수록 빈도 수가 급격히 줄어드는 것을 확인할 수가 있습니다.
$$
Y\sim Poisson(\lambda)\sim 이면,
$$
$$
p(Y=y) = \frac {e^{-\lambda} \lambda^y} {y!}, \ y= 0 ,1,2 ,\cdots
$$
$$
E(Y)= \lambda \qquad V(Y)= \lambda
$$
포아송분포는 특이하게도 평균과 분산이 같습니다. 그래서 빈도 데이터에 적용하기가 적절하죠. 평균 빈도가 높다는 것은 그만큼 바운더리가 커진다는 것이고 바운더리가 커진다는 것은 분산이 크다고 해석할 수 있습니다.
예시
A도로의 1시간 당 통과 차량 수가 $\lambda = 20$인 포아송 분포를 따를 경우, 15대 이하의 차량이 통과할 확률을 계산하도록 하겠습니다.
ppois(q = 15,lambda = 20, lower.tail = TRUE)
$$
P[Y \leq 15] = 0.15
$$
'통계 이론' 카테고리의 다른 글
정규분포(Normal Distribution) (0) | 2020.03.22 |
---|---|
연속형 확률분포 (0) | 2020.03.22 |
다항분포(Multinomial Distribution) (0) | 2020.03.22 |
이항분포(Binomial Distribution) (0) | 2020.03.22 |
이산형 확률분포 (0) | 2020.03.22 |