Must Learning With Statistics

연속형 확률분포 본문

통계 이론

연속형 확률분포

Doublek Park 2020. 3. 22. 13:08
6. 연속형 확률분포

연속형 확률분포는 이산형과는 다르게 상황이 분포를 결정짓지 못합니다. 데이터들의 형태를 보고 추측하는 정도가 전부입니다. 통계에서는 그것을 분포 가정이라고 표현하며 실질적으로 저희가 분석하는 대부분의 것들은 이 분포 가정을 통해 이루어집니다. 연속형 확률변수는 이산형 확률변수와는 다르게, 구간으로 정의역이 정의됩니다.

$$
P[a <X<b] = \int_a^bf(x)dx
$$

또한 누적된 확률 분포를 누적 확률 밀도 함수(cumulative probability density function, $cdf$)라고 합니다. $cdf$는 $pdf$를 적분한 것이라고 생각하면 됩니다. R코드를 통해 알아보도록 하겠습니다.

$$
F[x] = \int_{-\infty}^{x}f(x)dx
$$

R = rnorm(n = 100000, mean = 0, sd = 1)

ggplot(NULL) +
  geom_histogram(aes(x = R, y= ..density..),binwidth = 0.2,fill = "white",col = 'black') +
  geom_density(aes(x = R), col = 'red', size = 1) +
  scale_y_continuous(expand = c(0,0),limits = c(0,0.5)) +
  scale_x_continuous(limits = c(-3,3)) + 
  xlab("") + 
  theme_bw()

다음과 같은 분포가 있다고 가정하였을 때, 위 분포에 대한 누적확률분포는 다음과 같이 구할 수 있습니다.

CR = ecdf(R) # CDF 계산
x = seq(from = -3, to = 3, by = 0.2)
CP = CR(x)

ggplot(NULL) +
  geom_line(aes(x = x, y = CP)) +
  geom_area(aes(x = x, y = CP), fill = 'royalblue', alpha = 0.4) +
  theme_bw()

위 그래프를 확인하시면, x값이 증가함에 따라 그에 따른 누적확률도 증가하는 것을 알 수 있습니다. 즉, $p[x<3] \simeq 1$인 것을 확인할 수가 있습니다.

Comments