Must Learning With Statistics

t검정(R Code) 본문

통계 이론

t검정(R Code)

Doublek Park 2020. 3. 23. 01:14
5. $t$검정(R Code)

데이터는 앞단에서 다루었던 HR데이터를 이용하겠습니다.

이직 여부에 따라 직원들의 직무만족도에 차이가 있는지 검정을 하고자 합니다. 이 경우, 이직 여부(left)는 0 : 이직 안함, 1 : 이직이기 때문에 이직 여부는 2개의 수준을 가지고 있는 명목형 변수이고직무만족도(satisfaction_level)는 0 ~ 1 사이에 있는 연속형 변수입니다.

즉, 연속형 변수를 두 수준을 지니고 있는 명목형 변수에 따라 차이가 있는지 검정하고 싶기에 T 검정을 진행하는 것이 적합한 상황입니다.

T 검정을 R에서 진행하는 방법은 다음과 같습니다.

  • 등분산 검정

비교하고자 하는 두 잡단의 분산이 같은지 검정하기 위함입니다.

$$
H_0 : 두\ 집단의\ 분산이\ 동일하다.
$$
$$
H_1 :두\ 집단의\ 분산이\ 다르다.
$$

여기서 두 집단은 left변수의 수준인 0(이직 안함)과 1(이직)을 의미합니다.

# 라이브러리 불러오기
library(car)
# 등분산검정 실행
HR = read.csv('F:/Dropbox/DATA SET/HR_comma_sep.csv')
HR$left = as.factor(HR$left)
leveneTest(satisfaction_level ~ left , data = HR)
Levene's Test for Homogeneity of Variance (center = median)
         Df F value    Pr(>F)    
group     1   122.4 < 2.2e-16 ***
      14997                      
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Levene's 등분산 검정은 두 집단의 분산비를 비교하기 때문에 F분포를 따르게 됩니다.

R 실행 결과값에 나오는 $F\ value = 122.4$는 위 분포에서의 검정통계량입니다. 앞에 가설검정단계에서 검정통계량을 기준으로 계산 된 유의확률을 통해 귀무가설 기각 여부를 판단할 수 있다고 했습니다. 유의확률을 나타내는 $Pr(>F)$은 $< 2.2e-16$으로 표시가 되어 있습니다. R에서 $e-16$은 $\frac{1}{10^{16}}$을 의미합니다. 그러니 유의확률은 0에 매우 근접한 값을 가지는 것을 뜻하며 유의수준 $\alpha=0.05$보다 훨씬 작기에 두 집단의 분산이 동일하다.라는 귀무가설을 기각할 수 있습니다. 즉, 이직을 한 직원들과 이직을 하지 않은 직원들 간의 직무만족도의 분산은 동일하지 않다라는 것을 알 수 있습니다.

  • $t$검정

앞서 등분산 검정의 결과가 어떻게 나왔는가에 따라서 t 검정의 옵션이 변합니다. 검정의 귀무가설과 대립가설은 다음과 같습니다.
$$
H_0:두\ 집단의\ 평균이\ 같다.
$$
$$
H_1:두\ 집단의\ 평균이\ 다르다.
$$

# 등분산이 동일할 경우
t.test(satisfaction_level ~ left , data = HR,var.equal = TRUE)

    Two Sample t-test

data:  satisfaction_level by left
t = 51.613, df = 14997, p-value < 2.2e-16
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 0.2181017 0.2353215
sample estimates:
mean in group 0 mean in group 1 
      0.6668096       0.4400980 
# 등분산이 동일하지 않을 경우
t.test(satisfaction_level ~ left , data = HR,var.equal = FALSE)

    Welch Two Sample t-test

data:  satisfaction_level by left
t = 46.636, df = 5167, p-value < 2.2e-16
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 0.2171815 0.2362417
sample estimates:
mean in group 0 mean in group 1 
      0.6668096       0.4400980 

현재 데이터는 두 집단의 분산이 동일하지 않으므로 t.test에서 옵션을 var.equal = FALSE로 설정해줍니다.

분석 결과 검정통계량 $t\ value = 46.636$이며 유의확률($p-value$)은 $<2.2e-16$으로 0과 매우 가깝습니다. 이로써 두 집단(이직 여부)의 평균이 같다라는 귀무가설을 기각할 수 있으며, 이직 여부에 따라 직무만족도의 평균차이가 존재한다는 것을 알 수 있습니다. R 결과표에 따르면 이직을 하지 않은 집단의 평균(mean in group 0)은 0.66이고 이직을 한 집단의 평균(mean in group 1)은 0.44로 이직을 하지 않은 집단의 직무만족도가 더 높다고 할 수 있습니다.

'통계 이론' 카테고리의 다른 글

분산분석(R Code)  (0) 2020.03.23
분산분석 (ANOVA)  (0) 2020.03.23
t검정  (0) 2020.03.22
가설검정  (0) 2020.03.22
구간추정  (0) 2020.03.22
Comments