Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
Tags
- 교차타당성
- 강화학습 #추천서적 #강화학습인액션
- R 연습문제
- 확률실험
- Bias-Variance Tradeoff
- R ggplot2
- R dplyr
- R select
- 미국 선거데이터
- 의사결정나무
- 데이터핸들링
- geom_errorbar
- 콕스비례모형
- R mutate
- 이산형 확률분포
- R filter
- ggplot2
- ggplot()
- ISLR
- 데이터 핸들링
- R 결측치
- 카플란마이어
- R
- CrossValidation
- R문법
- 주식데이터시각화
- ggsurvplot
- 생존분석
- 생존그래프
- dplyr
Archives
- Today
- Total
Must Learning With Statistics
연속형 확률분포 본문
6. 연속형 확률분포
연속형 확률분포는 이산형과는 다르게 상황이 분포를 결정짓지 못합니다. 데이터들의 형태를 보고 추측하는 정도가 전부입니다. 통계에서는 그것을 분포 가정이라고 표현하며 실질적으로 저희가 분석하는 대부분의 것들은 이 분포 가정을 통해 이루어집니다. 연속형 확률변수는 이산형 확률변수와는 다르게, 구간으로 정의역이 정의됩니다.
$$
P[a <X<b] = \int_a^bf(x)dx
$$
또한 누적된 확률 분포를 누적 확률 밀도 함수(cumulative probability density function, $cdf$)라고 합니다. $cdf$는 $pdf$를 적분한 것이라고 생각하면 됩니다. R코드를 통해 알아보도록 하겠습니다.
$$
F[x] = \int_{-\infty}^{x}f(x)dx
$$
R = rnorm(n = 100000, mean = 0, sd = 1)
ggplot(NULL) +
geom_histogram(aes(x = R, y= ..density..),binwidth = 0.2,fill = "white",col = 'black') +
geom_density(aes(x = R), col = 'red', size = 1) +
scale_y_continuous(expand = c(0,0),limits = c(0,0.5)) +
scale_x_continuous(limits = c(-3,3)) +
xlab("") +
theme_bw()
다음과 같은 분포가 있다고 가정하였을 때, 위 분포에 대한 누적확률분포는 다음과 같이 구할 수 있습니다.
CR = ecdf(R) # CDF 계산
x = seq(from = -3, to = 3, by = 0.2)
CP = CR(x)
ggplot(NULL) +
geom_line(aes(x = x, y = CP)) +
geom_area(aes(x = x, y = CP), fill = 'royalblue', alpha = 0.4) +
theme_bw()
위 그래프를 확인하시면, x값이 증가함에 따라 그에 따른 누적확률도 증가하는 것을 알 수 있습니다. 즉, $p[x<3] \simeq 1$인 것을 확인할 수가 있습니다.
'통계 이론' 카테고리의 다른 글
모수(parameter)와 통계량(statistic) (0) | 2020.03.22 |
---|---|
정규분포(Normal Distribution) (0) | 2020.03.22 |
포아송분포 (Poisson Distribution) (0) | 2020.03.22 |
다항분포(Multinomial Distribution) (0) | 2020.03.22 |
이항분포(Binomial Distribution) (0) | 2020.03.22 |
Comments