일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- CrossValidation
- ggsurvplot
- 데이터핸들링
- geom_errorbar
- 이산형 확률분포
- R
- ISLR
- 주식데이터시각화
- R ggplot2
- ggplot2
- R dplyr
- 미국 선거데이터
- R select
- 데이터 핸들링
- 확률실험
- 콕스비례모형
- R 연습문제
- R문법
- R filter
- 교차타당성
- 생존그래프
- R mutate
- Bias-Variance Tradeoff
- dplyr
- 의사결정나무
- ggplot()
- R 결측치
- 강화학습 #추천서적 #강화학습인액션
- 생존분석
- 카플란마이어
- Today
- Total
목록2020/03 (31)
Must Learning With Statistics
7. 분산분석(R Code) 분산분석을 R에서 실행하는 방법은 다음과 같습니다. 분석하고자 하는 것은 *satisfaction_level(직무 만족도)의 평균이 salary(연봉 수준, low, medium, high) 집단에 따라 차이가 있는지 통계적으로 검정하고자 합니다. * 귀무가설은 다음과 같습니다. $$ H_0:salary(연봉)\ 수준별로\ satisfaction\ level(직무만족도)의\ 평균이\ 같을\ 것이다. $$ $$ H_1:not;H_0 $$ ANOVA = aov(satisfaction_level ~ salary, data = HR) summary(ANOVA) Df Sum Sq Mean Sq F value Pr(>F) salary 2 2.3 1.1693 18.96 5.97e-09 *..
6. 분산분석 분산분석은 $t$검정과 마찬가지로 차이를 보는 분석입니다. $t$검정과 다른 점은 분산분석은 두 집단은 물론이고 세 집단 이상에서도 집단 간 평균 차이를 볼 수 있는 점입니다. 두 집단에서 진행하면 $t$검정과 같은 결과를 줍니다. ANOVA(Analysis of Variance)의 의미를 조금 풀어서 해석해보자면 다음과 같습니다. 분산(변동)을 분석하여 평균을 비교한다.정도로 해석할 수 있습니다. 보통 차이를 비교할 때, 3개 이상의 개체에 대한 동시비교는 불가능합니다. 예를 들어, 사고 싶은 제품이 3개가 있는데, 그 중 1개만 살 수 있는 상황이라면 본능적으로 3개 중에 2개를 먼저 비교하고, 그 중 선택된 1개가 나머지 1개를 비교하여 구매할 제품을 선택하는 과정과 같습니다. 분산분..
5. $t$검정(R Code) 데이터는 앞단에서 다루었던 HR데이터를 이용하겠습니다. 이직 여부에 따라 직원들의 직무만족도에 차이가 있는지 검정을 하고자 합니다. 이 경우, 이직 여부(left)는 0 : 이직 안함, 1 : 이직이기 때문에 이직 여부는 2개의 수준을 가지고 있는 명목형 변수이고직무만족도(satisfaction_level)는 0 ~ 1 사이에 있는 연속형 변수입니다. 즉, 연속형 변수를 두 수준을 지니고 있는 명목형 변수에 따라 차이가 있는지 검정하고 싶기에 T 검정을 진행하는 것이 적합한 상황입니다. T 검정을 R에서 진행하는 방법은 다음과 같습니다. 등분산 검정 비교하고자 하는 두 잡단의 분산이 같은지 검정하기 위함입니다. $$ H_0 : 두\ 집단의\ 분산이\ 동일하다. $$ $$ H..
4. $t$검정 일반적으로 $t$검정이라하면 독립표본 $t$검정을 의미합니다. 독립적인 두 집단에서 추출된 표본들의 평균이 차이가 있는지 확인하기 위해 실시되며 혹시 두 집단이 상황적으로 독립이 아닌 집단이라면 대응표본 $t$검정(paired t-test)등을 포함한 다른 분석을 진행하게 됩니다. 원리는 위에서 가설검정 파트에서 했던 일표본 $t$검정과 동일합니다. 두 개의 독립적인 정규모집단에서 추출된 표본을 통해 계산된 두 집단의 표본평균 차를 이용합니다. 두 표본평균 차의 분포를 확인 후 우리가 가지고 있는 표본에서 계산된 차이가 두 평균이 같다고 가정했을 때(귀무가설이 사실일 때) 충분히 나올 법한 차이인가를 검정하는 과정입니다. 독립표본 t검정의 특성 분석의 목적은 두 집단의 평균이 차이가 있는..
15. 가설검정 통계적 가설검정은 어떤 가설을 세우고 그 가설이 사실일 가능성과 사실이 아닐 가능성을 비교해서 의사결정을 하는 하나의 추론과정입니다. 그리고 언제나 강조하지만, 가능성은 곧 확률로 표현되고 확률을 계산하기 위해서는 확률분포가 필요합니다. 결국 추정량의 확률분포를 가정하거나 근사시키는 방법으로 구간추정과 동일한 아이디어, 동일한 결과를 보여줍니다. 가설검정을 이해하기 위해서는 몇 가지 용어에 대한 학습이 필요합니다. 정리해 보도록 하겠습니다. 귀무가설(Null Hypothesis, $H_0$) 귀무가설은 분석자가 검정하기를 원하는 가설입니다. 또한 통계적 가설검정의 시작이자 끝입니다. 왜 그런지는 가설검정의 과정을 간단하게 요약하면 다음과 같습니다. 얻어진 표본을 이용해 귀무가설 하에서 가..
14. 구간추정 구간추정(interval estimation)은 점추정량의 변동을 이용해서 어느 정도의 구간을 추정하는 방법으로 그 결과물이 많이 들어보셨을 신뢰구간(confidence interval, C.I)입니다. 신뢰구간의 길이는 당연히 짧으면 짧을 수록 좋고 길면 사실상 실무적으로 아무 의미가 없을 가능성이 큽니다. 구간추정의 방법은 추정량의 분포를 근사 혹은 가정하여 그 확률 구조를 이용하는 방법부터 여러번의 재추출을 통해 경험적인 방법을 이용하는 것까지 다양하지만 여기서는 전자만 다루도록 하겠습니다. 구간추정의 기본적인 원리는 점추정 값에 그 점추정량의 확률 구조와 점추정량의 변동 정도를 가미하는 것입니다. 구간추정의 기본 요소는 다음 3가지라고 할 수 있습니다. 점추정값 점추정을 한 값입니..
13. 점추정 추정량은 우리가 알고 싶어하는 모수를 표본들을 이용하여 단 하나의 점으로 추측하는 통계량입니다. 그 과정을 점추정(Point estimation)이라고 하며, 그렇게 얻어진 통계량을 점주청량(Point estimator)라고 합니다. 점추정량은 다양한 방식으로 구할 수 있습니다. 모평균을 추정하기 위한 표본평균, 모분산을 추정하기 위한 표본평균 등이 대표적인 점추정량입니다. 물론 하나의 모수를 다른 방법을 통해 추정할 수도 있습니다. 각 끝의 일정 부분씩은 무시하고 나머지 표본들의 평균 계산(절삭평균, Trimmed Mean) 역시 모평균을 추정하는 하나의 점추정량이라고 할 수 있습니다. 하지만 역시 가장 많이 쓰는 척도는 표본평균입니다. 그 이유는 수리적인 확장성과 표본평균의 분포를 비교..
12. 통계적 추정과 검정 선거철이 다가올 경우, 여러분들은 수없이 많은 표본조사 결과를 여러 매체를 통해 접할 수가 있습니다. '어느 후보의 지지율이 OO%이며 신뢰수준 95%에서 조사가 되었다.' 이런 문구는 매우 익숙하실 것입니다. 통계 분석의 목적은 모집단을 대표할 수 있는 표본을 수집한 뒤, 모집단에 대해 추정을 진행하는 것입니다. 추정은 점추정량과 구간추정량으로 나뉘게 됩니다.일반적으로 추정량이라고 하면 점추정량을 의미하며 이는 모수를 단 하나의 점으로 추측하는 통계량입니다. 예를 들어, 우리가 A카페에 방문한 고객들의 연령대를 조사해야하는데, 모든 고객의 나이정보를 수집할 수가 없는 경우를 가정하겠습니다. 이 경우, 주어진 고객들의 나이 정보를 통해 전체 고객의 평균 나이를 소..