Must Learning With Statistics

구간추정 본문

통계 이론

구간추정

Doublek Park 2020. 3. 22. 13:21
14. 구간추정

구간추정(interval estimation)은 점추정량의 변동을 이용해서 어느 정도의 구간을 추정하는 방법으로 그 결과물이 많이 들어보셨을 신뢰구간(confidence interval, C.I)입니다. 신뢰구간의 길이는 당연히 짧으면 짧을 수록 좋고 길면 사실상 실무적으로 아무 의미가 없을 가능성이 큽니다. 구간추정의 방법은 추정량의 분포를 근사 혹은 가정하여 그 확률 구조를 이용하는 방법부터 여러번의 재추출을 통해 경험적인 방법을 이용하는 것까지 다양하지만 여기서는 전자만 다루도록 하겠습니다. 구간추정의 기본적인 원리는 점추정 값에 그 점추정량의 확률 구조와 점추정량의 변동 정도를 가미하는 것입니다. 구간추정의 기본 요소는 다음 3가지라고 할 수 있습니다.

점추정값

점추정을 한 값입니다. 예를 들어, 모평균의 신뢰구간을 구하고 싶다면 일반적으로 표본평균이을 사용합니다.

점추정량의 확률 구조

구간추정은 점추정의 확률분포를 반영합니다.

  • 정확한 확률분포를 알고 있을 때

    이를 통해 구한 신뢰구간을 정확한 신뢰구간(exact confidence interval)이라고 합니다. 그러나 사실 실제로 우리가 이렇게 정확하게 분석을 할 수 있는 상황은 많지 않습니다.

  • 여러가지 통계적인 방법을 통하여 추정량의 근사적인 분포를 이용하는 방법

    이 경우, 신뢰구간은 점근적 신뢰구간(asymptotic confidence interval) 혹은 근사적 신뢰구간(approximate confidence interval)이라고 합니다. 사실 우리가 구하는 대부분의 신뢰구간은 이 점근적 신뢰구간입니다.

그렇다면 이 확률구조를 어떤 식으로 이용할 수 있을까요?

어떤 확률 하에서, 나올 수 있는 값을 반영하는 방법입니다. 그래서 95% 신뢰구간, 90% 신뢰구간 등, 앞에 신뢰 정도를 확률로 나타내주는 것입니다. 다시 말해, 추정량의 분포를 통해 허용할 수준을 결정하게 되는 것이지요. 만약 신뢰성을 높인다면 신뢰구간은 길어질 것이고 약간 느슨한 신뢰성을 요구하면 신뢰구간은 짧아질 것입니다.

추정량의 표준편차(변동의 척도)

마지막으로 추정량의 표준편차를 반영합니다. 이 추정량의 표준편차를 흔히 표준오차(standard error)라고 표현하고 이는 단순히 모 표준편차처럼 각 점들이 평균과 얼마나 떨어져 있냐에 대한 것 말고도 해당 추정량의 변동 정도로, 신뢰성을 의미합니다. 변동이 적으면 신뢰할만한 추정량이고 그렇지 않다면 신뢰하기 힘든 추정량이 되겠지요. 만약 표준오차가 크다면 신뢰구간은 길어질 것이고 크지 않다면 짧아질 것입니다.

분포라는 것에 변동이 포함되어있기 때문에 2번과 3번은 사실 같은 내용입니만 표준오차에 대한 개념설명을 위해 분리해 두었습니다. 위 내용은 처음 읽고는 직관적으로 이해하기 어려울 수 있으니 꼭 밑의 예와 그래프를 보고 다시 읽어보시기 바랍니다.

신뢰구간의 길이는 곧 우리가 이 구간을 의미있게 사용할 수 없는가에 대한 척도인 동시에 가설검정을 했을 때의 기각할 범위를 알려줍니다. 구간추정의 원리는 가설검정의 원리와 정확히 일치합니다. 가설검정 역시 점추정량과 그확률분포, 변동 정도를 반영하여 실시하게 됩니다. 다만 가설검정은 한 점에대한 검정 결과고 구간추정은 전체적인 신뢰할만한 범위를 알려줍니다. 당연히 신뢰구간이 정보력이 훨씬 많습니다.

그럼 구체적인 예를 들어 알아보도록 하겠습니다.

한국 남성의 키는 정규모집단을 따른다고 했을 때 100명의 표본을 뽑아 평균 키를 구간추정 해보려고 합니다. 샘플링 결과 표본 평균은 170, 표본 표준편차는 10이 나왔고 이를 이용해 95% 신뢰구간을 구하려고 합니다. 이제 우리는 이 표본평균과 관련된 확률 구조가 필요합니다. 유명한 정리를 하나 사용해보도록 합시다. 모집단이 정규분포를 따른다고 가정하면 도 정규분포를 따를 것입니다. 그렇다면 스튜던트 정리에 의해 다음이 성립합니다.

$$
T=(\frac{\overline{X}-\mu}{s/\sqrt{n}}) \sim t(n-1)
$$

검정통계량의 분포를 도출하였기 때문에, t분포를 이용해 다음과 같이 검정통계량과 관련된 확률을 계산할 수 있습니다.

$$
P \left[ \left| \frac{\overline{X}-\mu}{s/\sqrt{n}} \right|\leq t_{0.975}(n-1) \right]=0.95
$$

만약 $T$가 정확하게 $t$분포를 따른다면 위 식은 자명한 사실일 것입니다. 풀어서 생각해보면 어렵지 않습니다.

  • $T$는 자유도가 $n-1$인 $t$분포를 따르므로 좌우 끝에 2.5%씩 제외한 영역에 포함될 확률이 95%입니다.

  • $t$분포는 0을 기준으로 좌우가 동일한 대칭분포이기 때문에, 좌우 2.5%의 영역을 나누는 기준 값은 부호만 다를 뿐, 절댓값은 동일합니다.

  • $t_{0.975}(n-1)$는 자유도가 $n-1$인 $t$분포에서 97.5%가 누적되었을 때의 값입니다. 그리고 $t_{0.025}(n-1)$과 부호만 다를 뿐, 절댓값은 똑같습니다. 이를 역확률값이라고 부릅니다.

우리는 100명의 표본을 뽑았으니 $T$값은 자유도가 99인 $t$분포를 따르게 되고, 양쪽 극단에 2.5%씩 남겨둔 역확률 값을 그림으료 표현하면 다음과 같습니다.

k1 = c()
p1 = c()

for(k in seq(-5,5,by = 0.01)){

  p = dt(x = k,df = 99)
  k1 = c(k1,k)
  p1 = c(p1,p)

}

DF = data.frame(
  k1 = k1,
  p1 = p1
)

ggplot(DF) +
  geom_line(aes(x = k1, y = p1)) +
  geom_area(aes(x = ifelse(k1 > qt(p = 0.025, df = 99) &
                             k1 < qt(p = 0.975, df = 99), k1, 0), y = p1),
            fill = 'red', alpha = 0.2) +
  geom_text(aes(x = 0, y = 0.2), label = "95%") +
  theme_bw() +
  scale_x_continuous(breaks = seq(-4,4, by = 1)) +
  scale_y_continuous(expand = c(0,0),limits = c(0,0.45)) +
  xlab("") + ylab("")

'통계 이론' 카테고리의 다른 글

t검정  (0) 2020.03.22
가설검정  (0) 2020.03.22
점추정  (0) 2020.03.22
통계적 추정과 검정  (0) 2020.03.22
카이제곱분포와 F분포 (Chi-square distribution and F-distribution)  (0) 2020.03.22
Comments