Must Learning With Statistics

모수(parameter)와 통계량(statistic) 본문

통계 이론

모수(parameter)와 통계량(statistic)

Doublek Park 2020. 3. 22. 13:14
8. 모수(parameter)와 통계량(statistic)
  • 모수 : 통계적 추론에서 분석자의 최종목표이자 모집단(population)의 특성

  • 모집단 : 분석 대상이 되는 집단의 전체

  • 통계량 : 해당 모집단에서 추출한 표본(sample)을 이용해 만든 것으로 표본들의 함수

  • 표본 : 모집단으로부터 무작위 추출이 되었으며, 모집단을 대표하는 분석 대상

  • 검정 : 주장하고자 하는 가설이 맞는지 틀린지에 대한 의사결정 과정

  • 추정 : 표본(통계량)을 이용하여 모집단(모수)를 추정하는 과정

    • 점추정량 : 하나의 값(점)으로 모수를 추정한 값
    • 구간추정량 : 신뢰구간을 통해 모수를 포함하고 있을 범위를 추정한 값들의 범위

    때로는 통계적 검정을 위해 특수한 통계량을 사용하기도 하고 모수를 추정하기 위해 통계량을 구해보기도 합니다. 전자의 경우는 검정통계량(test statistic)이라 부르고 후자의 경우는 특별히 추정량(estimator)라고 부릅니다.

간단한 예를 하나 들어 보겠습니다.
우리가 원하는 정보는 대한민국 남성의 평균 키입니다. 우리는 이것을 알아보기 위해서 무작위로 100명의 남성을 뽑아서 그들의 키를 평균 내 보았습니다. 이 경우 모집단은 대한민국 남성이며 표본은 뽑은 100명의 남자입니다. 또한 우리의 최종 목표이자 모집단의 특성인 모수는 대한민국 남성의 평균 키라고 할 수 있겠고 표본들을 통해 구한 표본들의 평균 키는 통계량이자 모수를 추정하는 추정량입니다. 또한 많은 분들이 착각하는 부분이 있는데, 통계량은 꼭 표본평균, 표본분산과 같이 모수를 추정하는 것들만이 아닙니다. 표본들의 함수는 전부 통계량입니다. 다만 다음과 같은 표본평균과 표본분산이 매우 자주 사용되는 통계량일 뿐입니다.

$$
\overline X = \frac 1 n \sum_{i=1}^n x_i
$$

$$
s^2 = \frac 1 {n-1} \sum_{i=1} ^n (x_i-\bar x )^2
$$

굳이 이런 함수가 아니더라도 표본들을 이용해서 만든 모든 값들은 통계량이라고 할 수 있습니다. 예를 들어 표본들 중 가장 큰 수, 표본 중 홀수 번째 표본만 더한 값 등도 사용할 일은 별로 없을 수 있지만 하나의 통계량입니다.

자유도

대표적인 점추정량인 표본평균($\overline X$ )과 표본분산($s^2$)은 다음과 같이 구해집니다.
$$
\overline{X} = \frac{1}{n}\sum_{i=1}^{n}X_i
$$

$$
s^2 = \frac{1}{n-1}\sum_{i=1}^{n}(X_i-\overline{X})^2
$$

분명 두 점추정량 모두 $n$개의 전체자료를 반영하여 구하는데, 표본평균은 $n$으로 나누어 주는 것에 반에 표본분산은 $n-1$로 나누어줍니다. 이것은 표본분산을 구하는 과정에서 표본평균으로 사용하였기 때문입니다. 이는 자유도와 관련된 것으로, 간단한 예시와 함께 알아보도록 합시다.

자유도(degree of freedom)는 자유롭게 값을 선택할 수 있는 데이터의 갯수로, 통계량의 관점에서 봤을 때, 온전히 해당 통계량의 정보를 생성하는 데에 사용되는 자료 수라고 생각할 수 있습니다.

이 아이디어를 떠올릴 만한 간단한 예를 하나 들어보겠습니다. 4명의 아이들에게 아이스크림을 사주려고 하는 상황을 떠올려 봅시다.

마켓에서 아이스크림은 종류가 다른 4개의 아이스크림밖에 없습니다. 첫 번째로 골라가는 아이는 4개 중에 먹고 싶은 것을 고를 수가 있습니다. 두 번째로 골라가는 아이는 3개 중에 골라가고, 세 번째 아이는 2개 중에 골라갑니다. 마지막 아이는 남는 것을 먹어야 됩니다. 여기서 아이스크림을 자유롭게 선택한 아이는 총 3명, 자유도는 3이 됩니다.

이 상황을 표본분산에 적용해보겠습니다.

우선 $\overline X$ 에 대해 생각해 봅시다. 점추정량인 $\overline X$ 은 확률변수이지만, 실제 표본분산은 구하는 데 사용된 값은 조사된 표본에서 얻어진 값입니다. 즉, 값이 고정되어 있습니다. 순차적으로 생각하면, $X_1$은 값을 자유롭게 선택할 수 있습니다. $X_2$, $X_3$도 마찬가지입니다. 그렇게 쭉 진행되어서 $X_{n-1}$까지, 확률변수 $X_i$는 자유롭게 값을 선택할 수 있습니다. 하지만 마지막에 해당되는 $X_n$ 은 자유롭게 값을 선택할 수가 없습니다. 그 이유는 고정되어 있는 값, 표본을 통해 구해진 평균($\overline{X}$)을 맞추어 주는 값을 가져야 하기 때문입니다. 이와 같은 이유로 표본평균을 사용하게 될 시, 자유도는 n이 아닌 n-1로 계산이 됩니다. 또한 이 $n-1$은 온전히 표본분산에 대한 정보를 생성하는데 사용된 자료의 갯수입니다. 1개의 자료는 위와 같은 논리로 $\overline X$ 라는 표본평균을 맞춰주어, $s^2$ 을 성립하게 하는 데 사용했으나 $s^2$ 이 가지고 있는 퍼짐의 정도를 나타내는 정보를 평가하는 데는 아무 기여를 하지 못했기 때문입니다.

Comments