일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 의사결정나무
- 확률실험
- R dplyr
- Bias-Variance Tradeoff
- R문법
- ggplot()
- 교차타당성
- 데이터 핸들링
- ISLR
- ggsurvplot
- geom_errorbar
- R 결측치
- R mutate
- R ggplot2
- 생존그래프
- 주식데이터시각화
- ggplot2
- 생존분석
- 콕스비례모형
- 강화학습 #추천서적 #강화학습인액션
- dplyr
- R
- CrossValidation
- 이산형 확률분포
- 미국 선거데이터
- R 연습문제
- R select
- 카플란마이어
- R filter
- 데이터핸들링
- Today
- Total
Must Learning With Statistics
카이제곱 독립성 검정 본문
2. 카이제곱 독립성 검정
카이제곱 독립성 검정은 두 범주형 변수가 독립적으로 분포하는지를 테스트하는 검정입니다. 이 역시 분할표에서 진행되며 일반적으로 2x2가 아닌 여러 범주를 갖고 있는 경우에 사용합니다.
카이제곱 독립성 검정의 기본적 아이디어는 관측빈도와 기대빈도(두 변수가 독립일 때의 빈도)의 차이를 비교하는 것입니다. 이 방법론을 자세히 살펴보면 다음과 같습니다.
각 범주(셀)의 기대빈도가 높다면(일반적으로 5를 기준으로 합니다), 정규분포 근사를 할 수 있습니다.
정규 근사가 가능하면 이를 이용해 카이제곱 통계량을 얻을 수 있습니다. (10장 참고)
이 카이제곱 통계량은 관측빈도와 기대빈도 차이의 변동을 정량화한 통계량입니다.
카이제곱 통계량이 충분히 높다면 관측빈도와 기대빈도의 차이는 크다고 할 수 있습니다.
만약 관측빈도와 기대빈도의 차이가 충분히 크면, 두 변수가 독립적이지 않다는 결론을 내리게 됩니다.
예를 하나 보겠습니다.
기대빈도는 두 변수가 통계적으로 독립이라는 귀무가설($H_0$) 하에 기대되는 빈도이고 이 귀무가설을 다른 방식으로 표현하면 $H_0 : \pi_{ij} = \pi_{i\cdot} \ \cdot\ \pi_{\cdot j}$입니다. 위의 표를 이용하여 이 아이디어를 생각해봅시다.
- $\pi_{ij}$는 각 셀에 속할 확률입니다. 예를 들어 지역3이면서 B당을 지지할 확률은 $\pi_{23}$이 됩니다.
- $\pi_{i \cdot}$은 i번 째 행에 속할 확률로 B당을 지지할 확률은 $\pi_{2\cdot}$입니다.
- $\pi_{\cdot j}$는 j째 열에 속할 확률입니다. 지역3에 속할 확률은 $\pi_{\cdot 3}$ 입니다.
만약 두 변수가 전혀 연관이 없다면 확률의 곱법칙에 의해 지역3에 속하면서 B당을 지지할 확률은 지역 3에 속할 확률과 B당을 지지할 확률의 곱으로 표현될 것입니다. 그렇기 때문에 두 변수가 통계적으로 독립이라는 것은 $\pi_{ij} = \pi_{i\cdot} ; \cdot; \pi_{\cdot j}$ 과 동치입니다. 또한 $\pi_{i\cdot }$은 $\frac{n_{i\cdot}}{n}$ 으로 추정되고 $\pi_{\cdot j}$는 $\frac{n_{\cdot j}}{n}$은 으로 추정됩니다. 즉, 각 행과 열의 빈도와 전체빈도의 비율로 추정되는 것으로 볼 수 있습니다.
기대빈도를 구하는 방법은 다음과 같습니다.
$$
E_{ij} = n \cdot \pi_{ij} = n\cdot \pi_{i \cdot} \cdot \pi_{\cdot j}\ \
(추정)\Rightarrow n\cdot \left( \frac {n_{i\cdot}} {n} \right)\cdot \left( \frac {n_{\cdot j}} {n} \right) = \frac {n_{i\cdot}\cdot n_{\cdot j} }{n}
$$
이를 이용해 지역3에 속하면서 B당을 지지할 기대빈도를 구해보면 약 161.44가 나옵니다. 이런식으로 각 셀에 대한 기대빈도를 구해 괄호로 표현하면 다음과 같고 각 셀의 기대빈도는 충분히 커서 근사 가정을 만족하므로 카이제곱 검정을 진행할 수 있습니다.
위에서 말씀드렸듯이, 기대빈도는 두 변수가 독립이라는 가정하에 구해진 빈도이므로 실제 관측빈도와 기대빈도의 차이가 크다는 것은두 변수의 연관성 역시 크다는 것을 의미합니다. 이 아이디어를 기반으로 각 셀에서의 관측빈도와 기대빈도의 총량을 이용하면 두 변수의 독립성을 판단할 수 있을 것입니다. 단순히 차이를 합치게되면 + / - 가 상쇄되므로 제곱을 해서 합치고 이는 카이제곱분포를 따르게 됩니다. 해당 식을 일반화하면 다음과 같습니다.
$$
Q = \sum_{i=1}^a \sum_{j=1}^b \frac {(O_{ij}-E_{ij})^2} {E_{ij}} \ \sim ; \chi^2 (;(a-1)(b-1))\
$$
$$
O : observed \ frequencies \qquad E : expected ;frequencies\
$$
$$
a : number\ of\ categories\ for \ column \ variables\
b: number\ of\ categories\ for\ row \ variables
$$
구해진 검정통계량 Q는 자유도가 (열 변수의 범주 - 1) $\cdot$ (행 범주의 범주 - 1) 인 카이제곱 분포를 따릅니다. 만약 Q가 크지 않다면 실제 관측빈도와 독립일 때의 기대빈도의 차가 전체적으로 크지 않다는 것을 의미하고 두 변수가 독립이라는 귀무가설을 기각하지 못할 것입니다. 반대로 Q 가 매우 크다면 두 변수는 연관성이 있다는 것을 의미하고 귀무가설을 기각하게 될 것입니다.
자유도가 저런 형태를 띠는 이유는 전체 표본 수 $n$이 고정되어있기 때문입니다. n이 고정된 상태로 기대빈도를 추정하면서 행의 합=$n$, 열의 합=$n$이라는 제약식을 갖게 되고 그 조합으로 구해지는 Q는 (열 변수의 범주 - 1) $\cdot$ (행 범주의 범주 - 1) 라는 자유도를 갖게 되는 것입니다.
이 방법을 이용하여 지역과 지지 정당이 독립인지에 대한 카이제곱 검정통계량을 구해보면 Q는 약 411.35가 되고 자유도는 (3-1)(4-1) = 6 이 됩니다. 이 경우 $p-value$는 매우 작아 두 변수가 독립이라는 귀무가설은 기각됩니다.
'통계 이론' 카테고리의 다른 글
로지스틱 회귀분석 (0) | 2020.03.27 |
---|---|
다항 회귀분석(Polynomial Regression) (0) | 2020.03.23 |
다중 회귀분석(Multiple Regression) (0) | 2020.03.23 |
회귀분석(R Code) (0) | 2020.03.23 |
단순 선형 회귀분석의 추정 (0) | 2020.03.23 |