일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 교차타당성
- R mutate
- ggplot2
- 데이터 핸들링
- R filter
- Bias-Variance Tradeoff
- ggsurvplot
- 생존분석
- R 결측치
- 의사결정나무
- 생존그래프
- R문법
- 미국 선거데이터
- dplyr
- R 연습문제
- 이산형 확률분포
- R ggplot2
- CrossValidation
- 강화학습 #추천서적 #강화학습인액션
- ggplot()
- geom_errorbar
- ISLR
- R dplyr
- 확률실험
- 콕스비례모형
- R
- R select
- 주식데이터시각화
- 데이터핸들링
- 카플란마이어
- Today
- Total
Must Learning With Statistics
점추정 본문
13. 점추정
추정량은 우리가 알고 싶어하는 모수를 표본들을 이용하여 단 하나의 점으로 추측하는 통계량입니다. 그 과정을 점추정(Point estimation)이라고 하며, 그렇게 얻어진 통계량을 점주청량(Point estimator)라고 합니다. 점추정량은 다양한 방식으로 구할 수 있습니다.
모평균을 추정하기 위한 표본평균, 모분산을 추정하기 위한 표본평균 등이 대표적인 점추정량입니다. 물론 하나의 모수를 다른 방법을 통해 추정할 수도 있습니다. 각 끝의 일정 부분씩은 무시하고 나머지 표본들의 평균 계산(절삭평균, Trimmed Mean) 역시 모평균을 추정하는 하나의 점추정량이라고 할 수 있습니다. 하지만 역시 가장 많이 쓰는 척도는 표본평균입니다. 그 이유는 수리적인 확장성과 표본평균의 분포를 비교적 쉽게 알 수 있다는 점을 들 수 있습니다.
다만, 이런 점추정에도 몇 가지의 장점과 단점이 있습니다.
점추정의 장점
점추정량은 지극히 직관적이다.
통계를 모르는 누군가가 한국의 30대 여성의 평균 수입을 묻는다면 점추정량으로 즉각적인 답을 줄 수 있을 것입니다. 점추정량은 매우 직관적이며 합리적입니다.
점추정량은 우리가 원하는 수치를 대체할 구체적인 값을 제시해준다.
우리가 통계적인 모델링 혹은 함수를 작성하기 위해 30대 여성 수입의 평균치가 필요하나 모평균을 알 수 없을 때, 점추정량으로 간단히 대체할 수 있습니다. 사실상 이는 대부분에 통계이론을 전개하는데 가장 중요한 역할을 합니다. 간단한 예를 말씀드리자면 모분산을 추정하기 위해서는 평균이 필요하기 때문에 표본평균을 이용합니다. 여기서 분산은 각 개별 값들이 평균에서 얼만큼 멀리 떨어져있는지에 대한 척도입니다. 그런데 우리는 '진짜 평균'을 알 수 없으니 표본들의 평균으로 대체하는 것입니다.
점추정량은 수리적 연산이나 비교에 유연하다.
경우에 따라서는 다른 집단과의 결합이나 다른 집단으로부터의 분리가 필요할 수 있습니다. 이 뿐 아니라 데이터가 수정되거나 추가되었을 때도 흔히 만나게됩니다. 이런 경우에도 점추정량은 유연히 대처할 수 있습니다.
점추정량의 단점
점추정량은 그저 하나의 점입니다.
점추정량은 그 이름에서 알 수 있듯이 하나의 점으로 추정합니다. 이 것은 장점이면서 단점이 될 수 있습니다.직관적이지만 하나의 점만 믿고 다음 분석을 진행하기에는 너무 리스크가 많습니다. 점추정량이 정확하게 모수를 추정하지 않고 동 떨어진 값을 보여줄 수 있을 뿐더러, 설령 정확하게 모수에 근접했다고 하여도 점추정량 하나만 보고서는 그 사실을 알 수 없습니다. 또한 같은 맥락으로, 점추정량을 이용해 만든 다른 추정량 및 통계 모형들은 무용지물이 될 수 있습니다.
점추정량은 변동을 가집니다.
통계량 역시 확률변수이며, 확률분포를 가지는 특성이 있습니다. 이는 점추정량은 정해진 값이 아닌 변동(분산)을 갖는다는 것을 의미합니다. 예컨대, '남성 키'라는 모평균을 추정하기 위해 샘플링을 통해 표본평균을 구해보니 170이 나온 경우를 생각해봅시다. 이 170은 단지 이번 조사에서 나온 값에 불과합니다. 다음 조사에서는 168이 나올 수도 있고 172가 나올 수도 있습니다. 이것이 첨추정량의 변동(분산)이고 이는 점추정량의 분포와 표본 수 n에 의하여 결정됩니다. 중요한 것은 점추정량 하나만 보고는 이 점추정량이 얼마나 높은 변동을 갖고 있는지 알 수 없다는 것입니다. 만약, 추정량의 변동이 너무 크다면 해당 추정량은 신뢰할 수 없고, 다시 조사하면 지금 값과 완전히 다른 값이 나올 것이기 때문이죠. 그렇기에 추정량은 꼭 추정량의 변동과 함께 보아야 합니다. 이것이 구간추정이자 가설검정의 원리입니다. 자세한 것은 다음 챕터에서 다루도록 하겠습니다.
너무 적은 표본에서의 점추정량은 의미가 없다.
이는 2번과 근본적으로 같은 이유지만 표본 수라는 관점에서 바라보기 위해 일부러 분류하였습니다. 표본 수가 크지 않다면, 어떤 방법을 이용하든, 점추정은 이상치에 매우 취약합니다. 실제와는 전혀 상관없는 값이 나올 수도 있습니다. 물론 추정 방법에 따라 상대적으로 이상치의 영향을 덜 받는 추정량도 있기는 합니다만, 그 어떤 것도 완전히 자유로울 수는 없습니다. 또한 자주 사용되는 추정량의 대부분은 평균에 기인한 것들인데, 평균은 모든 자료가 동등하게 반영되므로 이상치에 취약합니다. 우리는 때때로 매우 적은 양의 표본만을 이용해야 할 때가 있습니다. 이 경우 점추정량을 해석하기 어려운 경우가 많습니다.
'통계 이론' 카테고리의 다른 글
가설검정 (0) | 2020.03.22 |
---|---|
구간추정 (0) | 2020.03.22 |
통계적 추정과 검정 (0) | 2020.03.22 |
카이제곱분포와 F분포 (Chi-square distribution and F-distribution) (0) | 2020.03.22 |
t분포(student's t-distribution) (0) | 2020.03.22 |