일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- R문법
- ggplot2
- R select
- 생존분석
- R dplyr
- 카플란마이어
- R filter
- ISLR
- Bias-Variance Tradeoff
- 주식데이터시각화
- 확률실험
- R mutate
- R 연습문제
- 미국 선거데이터
- 이산형 확률분포
- CrossValidation
- 강화학습 #추천서적 #강화학습인액션
- 데이터 핸들링
- 의사결정나무
- 콕스비례모형
- R
- R 결측치
- ggplot()
- 생존그래프
- ggsurvplot
- R ggplot2
- dplyr
- 데이터핸들링
- geom_errorbar
- 교차타당성
- Today
- Total
Must Learning With Statistics
t분포(student's t-distribution) 본문
$t$분포를 쉽게 이해하려면, 이 분포는 순전히 평균 검정을 하기 위해 고안되었다는 점을 알고있어야 합니다.
만약 모집단이 정규분포를 따른다고 하면, 표본평균은 $N(\mu, ; \frac {\sigma^2}{n})$ 을 따른다는 것을 기억하실 겁니다. 그래서 과거에는 이를 이용하여 평균 검정을 해왔는데, 일반적으로 우리는 모분산인 $\sigma^2$을 알 길이 없습니다. 만약 $n$이 매우 크다면 표본평균은 더욱 정확히 정규분포를 따를 것이고, 표본평균의 분산 역시 0으로 점차 수렴하게 될 것입니다. 이 경우, 사실상 $\sigma^2$의 영향이 미미하게 되어 무시할 수 있지만, 표본 수가 작을 때는 문제가 될 수 있습니다. 모분산 $\sigma^2$을 정확히 알 수 없을 뿐 아니라, 그 값에 따라 정규분포의 모양이 크게 좌지우지되어, 정규분포를 이용한 검정이 그 신뢰성을 잃게되기 때문입니다.
이 경우의 검정을 위해, 정규분포와 형태는 비슷하지만 모분산 항을 포함하고 있지 않고, 대신 표분분산을 이용한 분포를 고안해 내는데, 그것이 $t$분포입니다.
$t$분포는 정규분포와 같이 중심을 기준으로 좌우 대칭이고 종모양의 형태를 갖고 중심은 0으로 고정되어있습니다. 즉, 위에서 다룬 표준정규분포와 중심이 같고 자유도(degree of freedom, df)에 따라 종의 형태가 조금씩 변화합니다. df는 표본 수와 관련이 있는 개념으로, 표본이 많아지면 표준정규분포와 거의 동일한 형태를 보입니다.
$$
Y \sim t(n) 이면,
$$
$$
f(y) = \frac {\Gamma(\frac {n+1}{2})} {\Gamma(\frac n 2 ) \cdot \sqrt{\pi n}} \cdot (\frac n {y^2 +n})^{\frac {n+1}{2}}; ,\qquad -\infty < y < \infty
$$
$$
E[Y] = 0 \qquad V[Y]= \frac n {n-2}
$$
$t$분포의 또 다른 특징은 표본 수가 적으면 적을수록 표준정규분포에 비해 양쪽 꼬리가 더 두껍다는 것입니다. 이는 데이터들이 그만큼 중심에 덜 모여있다는 것입니다.
정규분포와 $t$분포는 검정의 관점에서 바라볼 필요도 있습니다. 정규분포를 이용한 검정의 경우, 중심에서 비교적 조금만 벗어나도 다르다는 결과를 보이지만 $t$분포는 정규분포에 비해 상대적으로 더 벗어나도 같다는 결과를 줍니다. 이는 표본 수가 적은데서 나오는 우연에 의한 극단적인 값에 대해서도 어느정도 유연한 검정 결과를 준다고 할 수 있습니다.
물론 이 역시 표본이 적을 때의 경우이고 표본이 많아진다면 표준정규분포와 거의 동일한 결과를 보입니다. 극단적으로 표본이 무한에 가까워진다면 $t$분포는 표준정규분포와 동일한 확률 구조를 갖게될 것입니다.
아래 그림은 표준정규분포와 $t$분포의 차이를 보여주는 그림으로 $t$분포의 경우 자유도가 3인 경우입니다.
각 그래프의 색칠한 부분은 좌우 각각 데이터의 2.5% 씩, 합쳐서 5%의 영역입니다. 위 그림에서 확인할 수 있듯, 표준정규분포 보다는 $t$분포가 훨씬 더 중심에서 많이 퍼져있음을 볼 수 있습니다. 만약 이대로 검정을 하게 된다면 표준정규분포는 중심과 2정도만 차이나도 다르다는 결과를 주겠지만, t분포는 중심과 3이 차이난다고 하여도 같다는 결과를 줄 것입니다. 이와 같은 결과를 '보수적이다' 혹은 '보수적인 검정이다' 라고 표현하는데 웬만큼 확신이 없으면 다르다는 결과를 주지 않기 때문에 그렇게 불립니다.
즉, 평균에 대한 검정에서 표준정규분포를 이용한 검정보다 $t$분포를 이용한 검정이 더 보수적인 접근방법이라고 할 수 있습니다. 자세한 것은 $t$검정 파트에서 데이터와 함께 다시 다루겠지만 세 가지 정도는 기억해두고 가도록 합시다.
-
정규분포와 다르게 $t$분포는 모분산 $\sigma^2$ 를 포함하고 있지 않다. 이는 표본 수가 적을 때 신뢰성을 더해준다.
-
표본 수가 적을 때, $t$분포는 표준정규분포보다 양쪽 꼬리가 더 두텁다. 이는 보다 보수적인 검정을 하게 해준다.
-
표본수가 많아지면 $t$분포와 표준정규분포에 근사한다.
'통계 이론' 카테고리의 다른 글
통계적 추정과 검정 (0) | 2020.03.22 |
---|---|
카이제곱분포와 F분포 (Chi-square distribution and F-distribution) (0) | 2020.03.22 |
모수(parameter)와 통계량(statistic) (0) | 2020.03.22 |
정규분포(Normal Distribution) (0) | 2020.03.22 |
연속형 확률분포 (0) | 2020.03.22 |