일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- 생존분석
- 의사결정나무
- R ggplot2
- R dplyr
- 교차타당성
- 데이터 핸들링
- 데이터핸들링
- R select
- ggplot()
- R mutate
- 미국 선거데이터
- 이산형 확률분포
- R 결측치
- dplyr
- ggsurvplot
- R
- 콕스비례모형
- 확률실험
- R filter
- 생존그래프
- R문법
- 카플란마이어
- ggplot2
- ISLR
- geom_errorbar
- 주식데이터시각화
- R 연습문제
- CrossValidation
- Bias-Variance Tradeoff
- 강화학습 #추천서적 #강화학습인액션
- Today
- Total
목록2020/03/22 (15)
Must Learning With Statistics
4. $t$검정 일반적으로 $t$검정이라하면 독립표본 $t$검정을 의미합니다. 독립적인 두 집단에서 추출된 표본들의 평균이 차이가 있는지 확인하기 위해 실시되며 혹시 두 집단이 상황적으로 독립이 아닌 집단이라면 대응표본 $t$검정(paired t-test)등을 포함한 다른 분석을 진행하게 됩니다. 원리는 위에서 가설검정 파트에서 했던 일표본 $t$검정과 동일합니다. 두 개의 독립적인 정규모집단에서 추출된 표본을 통해 계산된 두 집단의 표본평균 차를 이용합니다. 두 표본평균 차의 분포를 확인 후 우리가 가지고 있는 표본에서 계산된 차이가 두 평균이 같다고 가정했을 때(귀무가설이 사실일 때) 충분히 나올 법한 차이인가를 검정하는 과정입니다. 독립표본 t검정의 특성 분석의 목적은 두 집단의 평균이 차이가 있는..
15. 가설검정 통계적 가설검정은 어떤 가설을 세우고 그 가설이 사실일 가능성과 사실이 아닐 가능성을 비교해서 의사결정을 하는 하나의 추론과정입니다. 그리고 언제나 강조하지만, 가능성은 곧 확률로 표현되고 확률을 계산하기 위해서는 확률분포가 필요합니다. 결국 추정량의 확률분포를 가정하거나 근사시키는 방법으로 구간추정과 동일한 아이디어, 동일한 결과를 보여줍니다. 가설검정을 이해하기 위해서는 몇 가지 용어에 대한 학습이 필요합니다. 정리해 보도록 하겠습니다. 귀무가설(Null Hypothesis, $H_0$) 귀무가설은 분석자가 검정하기를 원하는 가설입니다. 또한 통계적 가설검정의 시작이자 끝입니다. 왜 그런지는 가설검정의 과정을 간단하게 요약하면 다음과 같습니다. 얻어진 표본을 이용해 귀무가설 하에서 가..
14. 구간추정 구간추정(interval estimation)은 점추정량의 변동을 이용해서 어느 정도의 구간을 추정하는 방법으로 그 결과물이 많이 들어보셨을 신뢰구간(confidence interval, C.I)입니다. 신뢰구간의 길이는 당연히 짧으면 짧을 수록 좋고 길면 사실상 실무적으로 아무 의미가 없을 가능성이 큽니다. 구간추정의 방법은 추정량의 분포를 근사 혹은 가정하여 그 확률 구조를 이용하는 방법부터 여러번의 재추출을 통해 경험적인 방법을 이용하는 것까지 다양하지만 여기서는 전자만 다루도록 하겠습니다. 구간추정의 기본적인 원리는 점추정 값에 그 점추정량의 확률 구조와 점추정량의 변동 정도를 가미하는 것입니다. 구간추정의 기본 요소는 다음 3가지라고 할 수 있습니다. 점추정값 점추정을 한 값입니..
13. 점추정 추정량은 우리가 알고 싶어하는 모수를 표본들을 이용하여 단 하나의 점으로 추측하는 통계량입니다. 그 과정을 점추정(Point estimation)이라고 하며, 그렇게 얻어진 통계량을 점주청량(Point estimator)라고 합니다. 점추정량은 다양한 방식으로 구할 수 있습니다. 모평균을 추정하기 위한 표본평균, 모분산을 추정하기 위한 표본평균 등이 대표적인 점추정량입니다. 물론 하나의 모수를 다른 방법을 통해 추정할 수도 있습니다. 각 끝의 일정 부분씩은 무시하고 나머지 표본들의 평균 계산(절삭평균, Trimmed Mean) 역시 모평균을 추정하는 하나의 점추정량이라고 할 수 있습니다. 하지만 역시 가장 많이 쓰는 척도는 표본평균입니다. 그 이유는 수리적인 확장성과 표본평균의 분포를 비교..
12. 통계적 추정과 검정 선거철이 다가올 경우, 여러분들은 수없이 많은 표본조사 결과를 여러 매체를 통해 접할 수가 있습니다. '어느 후보의 지지율이 OO%이며 신뢰수준 95%에서 조사가 되었다.' 이런 문구는 매우 익숙하실 것입니다. 통계 분석의 목적은 모집단을 대표할 수 있는 표본을 수집한 뒤, 모집단에 대해 추정을 진행하는 것입니다. 추정은 점추정량과 구간추정량으로 나뉘게 됩니다.일반적으로 추정량이라고 하면 점추정량을 의미하며 이는 모수를 단 하나의 점으로 추측하는 통계량입니다. 예를 들어, 우리가 A카페에 방문한 고객들의 연령대를 조사해야하는데, 모든 고객의 나이정보를 수집할 수가 없는 경우를 가정하겠습니다. 이 경우, 주어진 고객들의 나이 정보를 통해 전체 고객의 평균 나이를 소..
11. $\chi^2$ 분포와 $F$ 분포 (Chi-square distribution and F-distribution) 통계에서는 변동(분산)은 비교, 관계 등 모든 분석에서 사용되는 개념입니다. 변동은 단순히 해당 변수의 퍼짐 정도를 나타내는 것뿐 아니라 비교의 신뢰성을 표현하기도 합니다. 예를 들어, 두 집단의 평균이 큰 차이가 없어도 그 평균의 변동이 크다면 신뢰하기 힘듭니다. 또한 변동은 볼륨을 뜻하기도 합니다. A라는 변동과 B라는 변동이 있을 때, 비교를 통하여 더 큰 볼륨(파워, 확장성)을 가진 변동을 알 수 있습니다. 우리는 이러한 변동을 측정하는 도구로 제곱합 구조 ($\sum a^2$) 사용하게 됩니다. 그 이유는 변동을 측정하는 방법에 있습니다. 변동은 어떤 값을 기준으로 각 관찰..
$t$분포를 쉽게 이해하려면, 이 분포는 순전히 평균 검정을 하기 위해 고안되었다는 점을 알고있어야 합니다. 만약 모집단이 정규분포를 따른다고 하면, 표본평균은 $N(\mu, ; \frac {\sigma^2}{n})$ 을 따른다는 것을 기억하실 겁니다. 그래서 과거에는 이를 이용하여 평균 검정을 해왔는데, 일반적으로 우리는 모분산인 $\sigma^2$을 알 길이 없습니다. 만약 $n$이 매우 크다면 표본평균은 더욱 정확히 정규분포를 따를 것이고, 표본평균의 분산 역시 0으로 점차 수렴하게 될 것입니다. 이 경우, 사실상 $\sigma^2$의 영향이 미미하게 되어 무시할 수 있지만, 표본 수가 작을 때는 문제가 될 수 있습니다. 모분산 $\sigma^2$을 정확히 알 수 없을 뿐 아니라, 그 값에 따라 정..
8. 모수(parameter)와 통계량(statistic) 모수 : 통계적 추론에서 분석자의 최종목표이자 모집단(population)의 특성 모집단 : 분석 대상이 되는 집단의 전체 통계량 : 해당 모집단에서 추출한 표본(sample)을 이용해 만든 것으로 표본들의 함수 표본 : 모집단으로부터 무작위 추출이 되었으며, 모집단을 대표하는 분석 대상 검정 : 주장하고자 하는 가설이 맞는지 틀린지에 대한 의사결정 과정 추정 : 표본(통계량)을 이용하여 모집단(모수)를 추정하는 과정 점추정량 : 하나의 값(점)으로 모수를 추정한 값 구간추정량 : 신뢰구간을 통해 모수를 포함하고 있을 범위를 추정한 값들의 범위 때로는 통계적 검정을 위해 특수한 통계량을 사용하기도 하고 모수를 추정하기 위해 통계량을 구해보기도 합..