Must Learning With Statistics

카이제곱 독립성 검정 본문

통계 이론

카이제곱 독립성 검정

Doublek Park 2020. 3. 27. 11:44
2. 카이제곱 독립성 검정

카이제곱 독립성 검정은 두 범주형 변수가 독립적으로 분포하는지를 테스트하는 검정입니다. 이 역시 분할표에서 진행되며 일반적으로 2x2가 아닌 여러 범주를 갖고 있는 경우에 사용합니다.

카이제곱 독립성 검정의 기본적 아이디어는 관측빈도와 기대빈도(두 변수가 독립일 때의 빈도)의 차이를 비교하는 것입니다. 이 방법론을 자세히 살펴보면 다음과 같습니다.

  • 각 범주(셀)의 기대빈도가 높다면(일반적으로 5를 기준으로 합니다), 정규분포 근사를 할 수 있습니다.

  • 정규 근사가 가능하면 이를 이용해 카이제곱 통계량을 얻을 수 있습니다. (10장 참고)

  • 이 카이제곱 통계량은 관측빈도와 기대빈도 차이의 변동을 정량화한 통계량입니다.

  • 카이제곱 통계량이 충분히 높다면 관측빈도와 기대빈도의 차이는 크다고 할 수 있습니다.

  • 만약 관측빈도와 기대빈도의 차이가 충분히 크면, 두 변수가 독립적이지 않다는 결론을 내리게 됩니다.

예를 하나 보겠습니다.

기대빈도는 두 변수가 통계적으로 독립이라는 귀무가설(H0) 하에 기대되는 빈도이고 이 귀무가설을 다른 방식으로 표현하면 H0:πij=πi  πj입니다. 위의 표를 이용하여 이 아이디어를 생각해봅시다.

  • πij는 각 셀에 속할 확률입니다. 예를 들어 지역3이면서 B당을 지지할 확률은 π23이 됩니다.
  • πi은 i번 째 행에 속할 확률로 B당을 지지할 확률은 π2입니다.
  • πj는 j째 열에 속할 확률입니다. 지역3에 속할 확률은 π3 입니다.

만약 두 변수가 전혀 연관이 없다면 확률의 곱법칙에 의해 지역3에 속하면서 B당을 지지할 확률은 지역 3에 속할 확률과 B당을 지지할 확률의 곱으로 표현될 것입니다. 그렇기 때문에 두 변수가 통계적으로 독립이라는 것은 πij=πi;;πj 과 동치입니다. 또한 πinin 으로 추정되고 πjnjn은 으로 추정됩니다. 즉, 각 행과 열의 빈도와 전체빈도의 비율로 추정되는 것으로 볼 수 있습니다.

기대빈도를 구하는 방법은 다음과 같습니다.
Eij=nπij=nπiπj  ()n(nin)(njn)=ninjn

이를 이용해 지역3에 속하면서 B당을 지지할 기대빈도를 구해보면 약 161.44가 나옵니다. 이런식으로 각 셀에 대한 기대빈도를 구해 괄호로 표현하면 다음과 같고 각 셀의 기대빈도는 충분히 커서 근사 가정을 만족하므로 카이제곱 검정을 진행할 수 있습니다.

위에서 말씀드렸듯이, 기대빈도는 두 변수가 독립이라는 가정하에 구해진 빈도이므로 실제 관측빈도와 기대빈도의 차이가 크다는 것은두 변수의 연관성 역시 크다는 것을 의미합니다. 이 아이디어를 기반으로 각 셀에서의 관측빈도와 기대빈도의 총량을 이용하면 두 변수의 독립성을 판단할 수 있을 것입니다. 단순히 차이를 합치게되면 + / - 가 상쇄되므로 제곱을 해서 합치고 이는 카이제곱분포를 따르게 됩니다. 해당 식을 일반화하면 다음과 같습니다.
Q=ai=1bj=1(OijEij)2Eij ;χ2(;(a1)(b1)) 

O:observed frequenciesE:expected;frequencies 

a:number of categories for column variables b:number of categories for row variables

구해진 검정통계량 Q는 자유도가 (열 변수의 범주 - 1) (행 범주의 범주 - 1) 인 카이제곱 분포를 따릅니다. 만약 Q가 크지 않다면 실제 관측빈도와 독립일 때의 기대빈도의 차가 전체적으로 크지 않다는 것을 의미하고 두 변수가 독립이라는 귀무가설을 기각하지 못할 것입니다. 반대로 Q 가 매우 크다면 두 변수는 연관성이 있다는 것을 의미하고 귀무가설을 기각하게 될 것입니다.

자유도가 저런 형태를 띠는 이유는 전체 표본 수 n이 고정되어있기 때문입니다. n이 고정된 상태로 기대빈도를 추정하면서 행의 합=n, 열의 합=n이라는 제약식을 갖게 되고 그 조합으로 구해지는 Q는 (열 변수의 범주 - 1) (행 범주의 범주 - 1) 라는 자유도를 갖게 되는 것입니다.

이 방법을 이용하여 지역과 지지 정당이 독립인지에 대한 카이제곱 검정통계량을 구해보면 Q는 약 411.35가 되고 자유도는 (3-1)(4-1) = 6 이 됩니다. 이 경우 pvalue는 매우 작아 두 변수가 독립이라는 귀무가설은 기각됩니다.

'통계 이론' 카테고리의 다른 글

로지스틱 회귀분석  (0) 2020.03.27
다항 회귀분석(Polynomial Regression)  (0) 2020.03.23
다중 회귀분석(Multiple Regression)  (0) 2020.03.23
회귀분석(R Code)  (0) 2020.03.23
단순 선형 회귀분석의 추정  (0) 2020.03.23
Comments