일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 생존그래프
- geom_errorbar
- dplyr
- 주식데이터시각화
- ISLR
- 강화학습 #추천서적 #강화학습인액션
- R ggplot2
- R 연습문제
- R dplyr
- 미국 선거데이터
- ggplot2
- 데이터 핸들링
- 교차타당성
- Bias-Variance Tradeoff
- R문법
- R
- 콕스비례모형
- 확률실험
- 이산형 확률분포
- 카플란마이어
- 데이터핸들링
- 의사결정나무
- R filter
- ggsurvplot
- R 결측치
- ggplot()
- 생존분석
- R select
- R mutate
- CrossValidation
- Today
- Total
Must Learning With Statistics
카이제곱분포와 F분포 (Chi-square distribution and F-distribution) 본문
11. $\chi^2$ 분포와 $F$ 분포 (Chi-square distribution and F-distribution)
통계에서는 변동(분산)은 비교, 관계 등 모든 분석에서 사용되는 개념입니다. 변동은 단순히 해당 변수의 퍼짐 정도를 나타내는 것뿐 아니라 비교의 신뢰성을 표현하기도 합니다. 예를 들어, 두 집단의 평균이 큰 차이가 없어도 그 평균의 변동이 크다면 신뢰하기 힘듭니다. 또한 변동은 볼륨을 뜻하기도 합니다. A라는 변동과 B라는 변동이 있을 때, 비교를 통하여 더 큰 볼륨(파워, 확장성)을 가진 변동을 알 수 있습니다. 우리는 이러한 변동을 측정하는 도구로 제곱합 구조 ($\sum a^2$) 사용하게 됩니다. 그 이유는 변동을 측정하는 방법에 있습니다. 변동은 어떤 값을 기준으로 각 관찰값들이 그 기준값과 얼만큼 떨어져 있는지 평가하는 방식으로 측정하게 되는데, 대부분의 경우 평균을 사용하게 됩니다. 그렇지만 단순히 평균과 관찰값들의 거리를 이용하면 그 합이 0이 되어 의미가 없어지기 때문이죠. 이 구조적인 문제를 해결하고자 기준값과의 거리의 제곱을 이용하게 됩니다. 그렇기에 변동은 오로지 양적인 값으로만 표현됩니다.
또한 두 집단의 변동을 비교하는 방법으로 두 변동의 차이를 사용하면 곤란합니다. 비교하려는 집단의 단위가 다를 수 있을 뿐더러 각 집단의 수를 반영해주어야 하기 때문입니다. 예컨대, 한 집단은 cm 단위로 조사되었고 다른 집단은 m단위로 표현되어 있는 길이를 생각해 봅시다. 같은 수준의 변동을 가졌다고 해도 막상 제곱합을 구해보면 cm로 조사된 집단의 더 크게 나올 것입니다. 단위가 다르기 때문이죠. 또한 10개 데이터에서와 100개 데이터에서의 분산을 똑같이 보면 곤란합니다. 이는 '제곱의 합' 꼴로 표현되므로 자료 수가 많으면 많을수록 더욱 커질 수 밖에 없는 구조이기 때문이죠.
이러한 특성들 때문에, 변동을 이용하여 검정, 추정을 하고 싶으면 위와 같은 상황들을 전부 고려한 확률구조가 필요합니다. 변동의 '단위' 와 '자료 수' 를 반영할 수 있도록 고안된 분포가 바로 $\chi^2$ 분포이고 $\chi^2$ 들의 비(ratio)가 따라는 분포가 $F$ 분포입니다. $\chi^2$ 들의 비는 두 변동을 비교하기 위해 사용되는 것으로, 이 역시 자료 수와 관련된 자유도가 반영됩니다.
Chi_2 = rchisq(n = 100, df = 2)
Chi_3 = rchisq(n = 100, df = 3)
Chi_10 = rchisq(n = 100, df = 10)
Chi_30 = rchisq(n = 100, df = 30)
DF_Chi = data.frame(
`df=2` = Chi_2,
`df=3` = Chi_3,
`df=10` = Chi_10,
`df=30` = Chi_30
)
DF_Chi %>%
melt() %>%
ggplot() +
geom_density(aes(x = value, fill = variable),alpha = 0.4) +
theme_bw() +
xlab("") + ylab("") + labs(fill = "") +
theme(legend.position = "bottom") +
ggtitle("카이제곱 분포")
F_11 = rf(n = 100, df1 = 1, df2 = 1)
F_21 = rf(n = 100, df1 = 2, df2 = 1)
F_52 = rf(n = 100, df1 = 5, df2 = 2)
F_101= rf(n = 100, df1 = 10, df2 = 1)
DF_F = data.frame(
`df=1,1` = F_11,
`df=2,1` = F_21,
`df=5,5` = F_52,
`df=10,1` = F_101
)
DF_F %>%
melt() %>%
ggplot() +
geom_density(aes(x = value, fill = variable),alpha = 0.05) +
theme_bw() +
xlab("") + ylab("") + labs(fill = "") +
theme(legend.position = "bottom") + xlim(0,5) +
ggtitle("F분포")
)
$\chi^2$ 변수를 만드는 아이디어는 정규분포를 따르는 변수에서 시작합니다. 우선 단위를 일반화하기 위해 표준화를 한 후 제곱을 하면 자유도 1인 $\chi^2$ 변수가 됩니다. 또한 $\chi^2$ 변수는 가법성이라고 불리는 성질이 있어, 독립적인 $\chi^2$ 변수끼리 더해도 $\chi^2$ 분포를 따르게 됩니다.
$$
Z \sim N(0, 1 ) \\ \
\Rightarrow \quad Z^2 \sim \chi^2 (df=1)\ \
\Rightarrow \quad \sum_{i=1}^{n}Z_i ^2 \sim \chi^2(df=n) \quad (Z_i \ 끼리는 \ 서로\ 독립)
$$
이것을 조금 풀어서 생각해 봅시다. iid는 독립적으로 같은 분포를 따른다는 뜻입니다.
$$
X_i \ \sim \ iid \ N(\mu, \sigma^2 ) \ \ \ \Rightarrow \quad
\left( \frac{ X_i -\mu } {\sigma} \right) = Z_i \ \sim \ iid \ N(0,1) \ \ \ \Rightarrow \quad
$$
$$
\left( \frac{ X_i -\mu } {\sigma} \right)^2 = {Z_i}^2 \ \sim \ iid \ \ \chi^2 (1) \ \ \ \Rightarrow \quad
\sum_{i=1 }^n \left( \frac{ X_i -\mu } {\sigma} \right)^2 = \sum_{i=1}^n {Z_i}^2 = Q \ \sim \ \chi^2 (n)
$$
위와 같이 정규분포의 제곱합은 $\chi ^2$ 분포를 따릅니다.
또한 $F$ 분포는 독립적인 $\chi^2$ 변수의 비가 따르는 분포라고 하였습니다.
$$
Q_1\sim \chi^2 (n_1) , \quad Q_2 \sim \chi^2 (n_2) \ \ \ \Rightarrow \quad
\frac { Q_1 /n_1} {Q_2/n_2} \ \sim F(n_1 , n_2) \ , \quad( Q_1 과 \ Q_2는 \ 독립)
$$
$F$ 분포를 이용하면 자유도를 반영한 비교가 가능합니다. 이는 후에 분산분석 등에서 실습하도록 하겠습니다.
'통계 이론' 카테고리의 다른 글
점추정 (0) | 2020.03.22 |
---|---|
통계적 추정과 검정 (0) | 2020.03.22 |
t분포(student's t-distribution) (0) | 2020.03.22 |
모수(parameter)와 통계량(statistic) (0) | 2020.03.22 |
정규분포(Normal Distribution) (0) | 2020.03.22 |