일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 카플란마이어
- R filter
- Bias-Variance Tradeoff
- R ggplot2
- R select
- dplyr
- ggsurvplot
- R문법
- 교차타당성
- R dplyr
- R
- 콕스비례모형
- 강화학습 #추천서적 #강화학습인액션
- R 결측치
- R mutate
- ggplot()
- ggplot2
- CrossValidation
- 데이터 핸들링
- 주식데이터시각화
- R 연습문제
- 생존분석
- 데이터핸들링
- 미국 선거데이터
- ISLR
- 이산형 확률분포
- geom_errorbar
- 생존그래프
- 의사결정나무
- 확률실험
- Today
- Total
Must Learning With Statistics
t검정 본문
4. $t$검정
일반적으로 $t$검정이라하면 독립표본 $t$검정을 의미합니다. 독립적인 두 집단에서 추출된 표본들의 평균이 차이가 있는지 확인하기 위해 실시되며 혹시 두 집단이 상황적으로 독립이 아닌 집단이라면 대응표본 $t$검정(paired t-test)등을 포함한 다른 분석을 진행하게 됩니다.
원리는 위에서 가설검정 파트에서 했던 일표본 $t$검정과 동일합니다. 두 개의 독립적인 정규모집단에서 추출된 표본을 통해 계산된 두 집단의 표본평균 차를 이용합니다. 두 표본평균 차의 분포를 확인 후 우리가 가지고 있는 표본에서 계산된 차이가 두 평균이 같다고 가정했을 때(귀무가설이 사실일 때) 충분히 나올 법한 차이인가를 검정하는 과정입니다.
독립표본 t검정의 특성
- 분석의 목적은 두 집단의 평균이 차이가 있는지 확인하는 것이다.
- 분석의 대상은 독립적인 두 정규모집단에서 추출된 표본들이다.
- 분석의 수단은 $t$분포다.
- 분석의 원리는 추출된 표본으로 계산된 차이가 우연히 나올만한 차이인지 아닌지를 $t$분포(두 표본평균 차의 분포)를 이용하여 확인하는 것이다.
하지만 여기서 하나의 문제가 생깁니다. 바로 분산에 대한 처리입니다. 가설검정 파트에서 했던 일표본 $t$검정의 경우 집단이 하나밖에 없으니 상관 없지만 집단이 두 개인 이 경우에서는 분산을 어떻게 처리해야 할까요.
독립표본 $t$검정에서는 두 집단의 분산이 같은 경우와 다른 경우를 나누어 생각합니다. 이를 흔히 등분산 가정이라 합니다. 일반적으로 $t$검정에서는 두 집단의 등분산이 같은 경우, 즉, 등분산 가성이 성립되었을 때는 정확하게(exact) $t$분포를 이용하고 그렇지 않을 경우에는 근사적인(approximate) 검정을 실시합니다.
그런 관계로, $t$검정 전에는 반드시 두 집단의 분산이 같은지에 대한 검정을 진행해야 합니다. 참고로 등분산을 확인하는 방법은 F분포를 이용한 Levene 등분산 검정($H_0: 두 \ 집단의\ 분산은\ 동일하다$)을 비롯한 몇 가지의 검정이 있으나 여기서 자세히 설명하진 않겠습니다.
만약 두 집단의 등분산 가정이 성립한다고 판단이 되면 집단에 상관없이 전체의 분산을 계산해서 사용합니다. 이를 합동 표본분산(pooled sample variance)이라고 합니다. 그 형태는 다음과 같습니다. 여기서 $n_1$은 X표본(집단 1)에서의 표본 수고 $n_2$ 는 Y표본(집단 2)에서의 표본수입니다.
합동 표본분산의 형태를 살펴보면 두 집단의에서의 변동을 각각 계산하고 더한 후 전체 자유도로 나누어준 것을 확인할 수 있습니다. 자유도는 역시 기존 다른 추정량들과 마찬가지로 합동 표본분산을 추정하는데 온전히 사용된 데이터 수로 결정됩니다. 이와 같은 것을 pooling 한다고 표현하며 단일 집단에서의 표본평균과 비교해보면 pooling이 어떤 구조로 이루어지는 것인지 어렵지 않게 이해하실 수 있을 것입니다.
$$
(단일\ 집단에서의 \ 표본평균) \qquad s^2 = \frac 1 {n-1} \sum_{i=1}^{n} (X_i -\overline X)^2
$$
이제 이를 이용해 두 집단의 표본평균 차에 대한 분포를 도출해봅시다.
두 독립적인 정규모집단에서 추출된 표본으로 계산된 표본평균들은 정규분포를 따르기 때문에 정규분포 파트에서 학습한대로 그들의 선형결합 $(\overline X - \overline Y)$ 역시 정규분포를 따를 것입니다. 이것에 착안하여 일표본 $t$검정에서와 같이 스튜던트 정리를 이용합니다.
$$
\frac {(\overline X-\overline Y) - (\mu_1 - \mu_2) } { \sqrt{\frac {s_p^2} n_1 + \frac {s_p^2} n_2}} \ \sim \ t(n_1+n_2 -2)
$$
여기서 $\mu_1$ 과 $\mu_2$는 각 두 집단으 모평균이고 그 차이인 $(\mu_1 -\mu_2)$이 우리의 최종 목적입니다. 만약 두 집단의 사이의 유의한 차이가 없다면 0이 될 것이고 그렇지 않다면 충분히 유의한 차이를 보일 것입니다.
이 역시 일표본 $t$검정에서의 검정통계량과 비교해보시면 같은 형태를 띠는 것을 알 수 있습니다.
$$
(단일 \ 집단에서의 \ 검정통계량) \qquad \frac { \overline X -\mu} {s/\sqrt n } =\ \frac {\overline X -\mu}{\sqrt {\frac {s^2} n}} \ \sim \t(n-1)
$$
이제 이 검정통계량을 이용하여 우리가 원하는 $t$검정을 실시할 수 있습니다.
위에서 말씀드린대로 우리의 최종 목적은 두 집단의 평균이 같은지 다른지를 확인하는 것입니다. 이를 귀무가설과 대립가설로 표현하면 다음과 같습니다.
$$
H_0 \ \ \mu_1 = \mu_2 \
H_1 \ : \ \mu_1 \neq \mu_2
$$
만약 귀무가설이 사실이라고 가정하면 위 검정통계량에서 $(\mu_1 -\mu_2)$은 0이 되므로 검정통계량은 좀 더 간소화가 가능합니다. 이는 귀무가설 하에서의 검정통계량이니 $T_0$ 라고 하겠습니다.
$$
T_0=\ \frac {(\overline X-\overline Y) } {\sqrt{\frac {s_p^2} n_1 + \frac {s_p^2} n_2}} \ \sim \ t(n_1+n_2 -2)
$$
판단은 원리는이 $T_0$ 를 이용하여, 우리가 가지고 있는 표본들로 계산된 검정통계량이 과연 (주어진 $t$분포하에서) 자연스럽게 나올만한 값인지, 아니면 우연이라고 보기에는 너무 극단에 가까운 값인지 확률로써 확인하는 것입니다. 그 방식은 일표본 $t$검정과 정확히 일치합니다.
만약 계산된 검정통계량보다 극단적인 값이 나올 확률(유의확률)이 사전에 우리가 정한 유의수준 $\alpha$ 보다 작다면 귀무가설을 기각하고 그렇지 않다면 기각하지 못하게 될 것입니다.
다음은 두 집단의 분산이 다를 경우입니다. 이 때는 일반적인 등분산 $t$검정에서의 검정통계량과 형태는 같게 하되 두 집단의 분산을 따로 추정합니다. 여기서 $s_1^{2}$과 $s_2^{2}$ 는 각각 집단1과 집단2의 표본분산입니다.
$$
\frac {(\overline X-\overline Y) - (\mu_1 - \mu_2) } { \sqrt{\frac {s_1^2} n_1 + \frac {s_2^2} n_2}} \ \sim \ t(degree\ of \ freedom)
$$
그런데 이 경우 $t$분포의 자유도를 계산하기가 애매합니다. 그래서 대부분의 경우는 세터스웨이트 공식과 같은 자유도의 근사치를 얻는 방법을 이용하게 됩니다. R을 비롯한 통계 프로그램에서는 자동으로 자유도 근사치를 얻어 검정을 진행합니다.
'통계 이론' 카테고리의 다른 글
분산분석 (ANOVA) (0) | 2020.03.23 |
---|---|
t검정(R Code) (1) | 2020.03.23 |
가설검정 (0) | 2020.03.22 |
구간추정 (0) | 2020.03.22 |
점추정 (0) | 2020.03.22 |