카이제곱 독립성 검정

Notice

Recent Posts

Recent Comments

Link

« 2026/06 »
일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

Tags more

Archives

Today

Total

관리 메뉴

Must Learning With Statistics

카이제곱 독립성 검정 본문

통계 이론

카이제곱 독립성 검정

Doublek Park 2020. 3. 27. 11:44

2. 카이제곱 독립성 검정

카이제곱 독립성 검정은 두 범주형 변수가 독립적으로 분포하는지를 테스트하는 검정입니다. 이 역시 분할표에서 진행되며 일반적으로 2x2가 아닌 여러 범주를 갖고 있는 경우에 사용합니다.

카이제곱 독립성 검정의 기본적 아이디어는 관측빈도와 기대빈도(두 변수가 독립일 때의 빈도)의 차이를 비교하는 것입니다. 이 방법론을 자세히 살펴보면 다음과 같습니다.

각 범주(셀)의 기대빈도가 높다면(일반적으로 5를 기준으로 합니다), 정규분포 근사를 할 수 있습니다.
정규 근사가 가능하면 이를 이용해 카이제곱 통계량을 얻을 수 있습니다. (10장 참고)
이 카이제곱 통계량은 관측빈도와 기대빈도 차이의 변동을 정량화한 통계량입니다.
카이제곱 통계량이 충분히 높다면 관측빈도와 기대빈도의 차이는 크다고 할 수 있습니다.
만약 관측빈도와 기대빈도의 차이가 충분히 크면, 두 변수가 독립적이지 않다는 결론을 내리게 됩니다.

예를 하나 보겠습니다.

기대빈도는 두 변수가 통계적으로 독립이라는 귀무가설($H_0$) 하에 기대되는 빈도이고 이 귀무가설을 다른 방식으로 표현하면 $H_0 : \pi_{ij} = \pi_{i\cdot} \ \cdot\ \pi_{\cdot j}$입니다. 위의 표를 이용하여 이 아이디어를 생각해봅시다.

$\pi_{ij}$는 각 셀에 속할 확률입니다. 예를 들어 지역3이면서 B당을 지지할 확률은 $\pi_{23}$이 됩니다.
$\pi_{i \cdot}$은 i번 째 행에 속할 확률로 B당을 지지할 확률은 $\pi_{2\cdot}$입니다.
$\pi_{\cdot j}$는 j째 열에 속할 확률입니다. 지역3에 속할 확률은 $\pi_{\cdot 3}$ 입니다.

만약 두 변수가 전혀 연관이 없다면 확률의 곱법칙에 의해 지역3에 속하면서 B당을 지지할 확률은 지역 3에 속할 확률과 B당을 지지할 확률의 곱으로 표현될 것입니다. 그렇기 때문에 두 변수가 통계적으로 독립이라는 것은 $\pi_{ij} = \pi_{i\cdot} ; \cdot; \pi_{\cdot j}$ 과 동치입니다. 또한 $\pi_{i\cdot }$은 $\frac{n_{i\cdot}}{n}$ 으로 추정되고 $\pi_{\cdot j}$는 $\frac{n_{\cdot j}}{n}$은 으로 추정됩니다. 즉, 각 행과 열의 빈도와 전체빈도의 비율로 추정되는 것으로 볼 수 있습니다.

기대빈도를 구하는 방법은 다음과 같습니다.
$$
E_{ij} = n \cdot \pi_{ij} = n\cdot \pi_{i \cdot} \cdot \pi_{\cdot j}\ \
(추정)\Rightarrow n\cdot \left( \frac {n_{i\cdot}} {n} \right)\cdot \left( \frac {n_{\cdot j}} {n} \right) = \frac {n_{i\cdot}\cdot n_{\cdot j} }{n}
$$

이를 이용해 지역3에 속하면서 B당을 지지할 기대빈도를 구해보면 약 161.44가 나옵니다. 이런식으로 각 셀에 대한 기대빈도를 구해 괄호로 표현하면 다음과 같고 각 셀의 기대빈도는 충분히 커서 근사 가정을 만족하므로 카이제곱 검정을 진행할 수 있습니다.

위에서 말씀드렸듯이, 기대빈도는 두 변수가 독립이라는 가정하에 구해진 빈도이므로 실제 관측빈도와 기대빈도의 차이가 크다는 것은두 변수의 연관성 역시 크다는 것을 의미합니다. 이 아이디어를 기반으로 각 셀에서의 관측빈도와 기대빈도의 총량을 이용하면 두 변수의 독립성을 판단할 수 있을 것입니다. 단순히 차이를 합치게되면 + / - 가 상쇄되므로 제곱을 해서 합치고 이는 카이제곱분포를 따르게 됩니다. 해당 식을 일반화하면 다음과 같습니다.
$$
Q = \sum_{i=1}^a \sum_{j=1}^b \frac {(O_{ij}-E_{ij})^2} {E_{ij}} \ \sim ; \chi^2 (;(a-1)(b-1))\
$$

$$
O : observed \ frequencies \qquad E : expected ;frequencies\
$$

$$
a : number\ of\ categories\ for \ column \ variables\
b: number\ of\ categories\ for\ row \ variables
$$

구해진 검정통계량 Q는 자유도가 (열 변수의 범주 - 1) $\cdot$ (행 범주의 범주 - 1) 인 카이제곱 분포를 따릅니다. 만약 Q가 크지 않다면 실제 관측빈도와 독립일 때의 기대빈도의 차가 전체적으로 크지 않다는 것을 의미하고 두 변수가 독립이라는 귀무가설을 기각하지 못할 것입니다. 반대로 Q 가 매우 크다면 두 변수는 연관성이 있다는 것을 의미하고 귀무가설을 기각하게 될 것입니다.

자유도가 저런 형태를 띠는 이유는 전체 표본 수 $n$이 고정되어있기 때문입니다. n이 고정된 상태로 기대빈도를 추정하면서 행의 합=$n$, 열의 합=$n$이라는 제약식을 갖게 되고 그 조합으로 구해지는 Q는 (열 변수의 범주 - 1) $\cdot$ (행 범주의 범주 - 1) 라는 자유도를 갖게 되는 것입니다.

이 방법을 이용하여 지역과 지지 정당이 독립인지에 대한 카이제곱 검정통계량을 구해보면 Q는 약 411.35가 되고 자유도는 (3-1)(4-1) = 6 이 됩니다. 이 경우 $p-value$는 매우 작아 두 변수가 독립이라는 귀무가설은 기각됩니다.

저작자표시 비영리 변경금지 (새창열림)

'통계 이론' 카테고리의 다른 글

로지스틱 회귀분석 (0)	2020.03.27
다항 회귀분석(Polynomial Regression) (0)	2020.03.23
다중 회귀분석(Multiple Regression) (0)	2020.03.23
회귀분석(R Code) (0)	2020.03.23
단순 선형 회귀분석의 추정 (0)	2020.03.23

'통계 이론' Related Articles

Comments

Must Learning With Statistics

카이제곱 독립성 검정 본문

카이제곱 독립성 검정

2. 카이제곱 독립성 검정

'통계 이론' 카테고리의 다른 글

티스토리툴바