일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- dplyr
- 주식데이터시각화
- 이산형 확률분포
- 카플란마이어
- 데이터 핸들링
- R ggplot2
- 생존분석
- geom_errorbar
- R
- R mutate
- R dplyr
- 미국 선거데이터
- R filter
- R문법
- R 결측치
- CrossValidation
- 강화학습 #추천서적 #강화학습인액션
- 교차타당성
- 생존그래프
- ggsurvplot
- 의사결정나무
- R select
- ggplot2
- 데이터핸들링
- Bias-Variance Tradeoff
- ggplot()
- ISLR
- 확률실험
- 콕스비례모형
- R 연습문제
- Today
- Total
Must Learning With Statistics
t검정(R Code) 본문
5. $t$검정(R Code)
데이터는 앞단에서 다루었던 HR데이터를 이용하겠습니다.
이직 여부에 따라 직원들의 직무만족도에 차이가 있는지 검정을 하고자 합니다. 이 경우, 이직 여부(left)는 0 : 이직 안함, 1 : 이직이기 때문에 이직 여부는 2개의 수준을 가지고 있는 명목형 변수이고직무만족도(satisfaction_level)는 0 ~ 1 사이에 있는 연속형 변수입니다.
즉, 연속형 변수를 두 수준을 지니고 있는 명목형 변수에 따라 차이가 있는지 검정하고 싶기에 T 검정을 진행하는 것이 적합한 상황입니다.
T 검정을 R에서 진행하는 방법은 다음과 같습니다.
- 등분산 검정
비교하고자 하는 두 잡단의 분산이 같은지 검정하기 위함입니다.
$$
H_0 : 두\ 집단의\ 분산이\ 동일하다.
$$
$$
H_1 :두\ 집단의\ 분산이\ 다르다.
$$
여기서 두 집단은 left변수의 수준인 0(이직 안함)과 1(이직)을 의미합니다.
# 라이브러리 불러오기
library(car)
# 등분산검정 실행
HR = read.csv('F:/Dropbox/DATA SET/HR_comma_sep.csv')
HR$left = as.factor(HR$left)
leveneTest(satisfaction_level ~ left , data = HR)
Levene's Test for Homogeneity of Variance (center = median)
Df F value Pr(>F)
group 1 122.4 < 2.2e-16 ***
14997
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Levene's 등분산 검정은 두 집단의 분산비를 비교하기 때문에 F분포를 따르게 됩니다.
R 실행 결과값에 나오는 $F\ value = 122.4$는 위 분포에서의 검정통계량입니다. 앞에 가설검정단계에서 검정통계량을 기준으로 계산 된 유의확률을 통해 귀무가설 기각 여부를 판단할 수 있다고 했습니다. 유의확률을 나타내는 $Pr(>F)$은 $< 2.2e-16$으로 표시가 되어 있습니다. R에서 $e-16$은 $\frac{1}{10^{16}}$을 의미합니다. 그러니 유의확률은 0에 매우 근접한 값을 가지는 것을 뜻하며 유의수준 $\alpha=0.05$보다 훨씬 작기에 두 집단의 분산이 동일하다.라는 귀무가설을 기각할 수 있습니다. 즉, 이직을 한 직원들과 이직을 하지 않은 직원들 간의 직무만족도의 분산은 동일하지 않다라는 것을 알 수 있습니다.
- $t$검정
앞서 등분산 검정의 결과가 어떻게 나왔는가에 따라서 t 검정의 옵션이 변합니다. 검정의 귀무가설과 대립가설은 다음과 같습니다.
$$
H_0:두\ 집단의\ 평균이\ 같다.
$$
$$
H_1:두\ 집단의\ 평균이\ 다르다.
$$
# 등분산이 동일할 경우
t.test(satisfaction_level ~ left , data = HR,var.equal = TRUE)
Two Sample t-test
data: satisfaction_level by left
t = 51.613, df = 14997, p-value < 2.2e-16
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
0.2181017 0.2353215
sample estimates:
mean in group 0 mean in group 1
0.6668096 0.4400980
# 등분산이 동일하지 않을 경우
t.test(satisfaction_level ~ left , data = HR,var.equal = FALSE)
Welch Two Sample t-test
data: satisfaction_level by left
t = 46.636, df = 5167, p-value < 2.2e-16
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
0.2171815 0.2362417
sample estimates:
mean in group 0 mean in group 1
0.6668096 0.4400980
현재 데이터는 두 집단의 분산이 동일하지 않으므로 t.test에서 옵션을 var.equal = FALSE로 설정해줍니다.
분석 결과 검정통계량 $t\ value = 46.636$이며 유의확률($p-value$)은 $<2.2e-16$으로 0과 매우 가깝습니다. 이로써 두 집단(이직 여부)의 평균이 같다라는 귀무가설을 기각할 수 있으며, 이직 여부에 따라 직무만족도의 평균차이가 존재한다는 것을 알 수 있습니다. R 결과표에 따르면 이직을 하지 않은 집단의 평균(mean in group 0)은 0.66이고 이직을 한 집단의 평균(mean in group 1)은 0.44로 이직을 하지 않은 집단의 직무만족도가 더 높다고 할 수 있습니다.
'통계 이론' 카테고리의 다른 글
분산분석(R Code) (0) | 2020.03.23 |
---|---|
분산분석 (ANOVA) (0) | 2020.03.23 |
t검정 (0) | 2020.03.22 |
가설검정 (0) | 2020.03.22 |
구간추정 (0) | 2020.03.22 |