일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- R 연습문제
- 생존그래프
- R select
- 카플란마이어
- R mutate
- R filter
- 의사결정나무
- CrossValidation
- R ggplot2
- 콕스비례모형
- R문법
- ggplot2
- 생존분석
- geom_errorbar
- ISLR
- R dplyr
- ggplot()
- R
- 교차타당성
- 이산형 확률분포
- R 결측치
- 미국 선거데이터
- Bias-Variance Tradeoff
- 데이터 핸들링
- 강화학습 #추천서적 #강화학습인액션
- 확률실험
- 주식데이터시각화
- 데이터핸들링
- dplyr
- ggsurvplot
- Today
- Total
목록전체 글 (56)
Must Learning With Statistics

상관분석에서 주의할 점은 상관분석은 단순히 두 변수 간의 선형 관계를 파악하는 것뿐입니다. 즉 이 말은 비선형관계는 상관계수로 잡아내기 힘들 수가 있습니다. 다음의 예시를 통해 알아보도록 하겠습니다. library(ggplot2) x1 = runif(n = 100,min = -10, max = 10) y = x1 * 10 + rnorm(n = 100, mean = 3, sd = 5) ggplot() + geom_point(aes(x = x1, y= y),size = 3) + geom_text(aes(x = 5, y = -30),label = round(cor(x1,y),4)) + theme_bw() 위 두 변수는 산점도로 보나, 상관계수로 보나 거의 1에 가까운 상관계수를 가지고 있습니다. 이는 두 변수..

만약 두개의 변수 간 관계를 분석하고 싶은 경우, 우리는 종종 상관계수(correlation)이란 것을 구하고는 합니다. 너무 유명한 용어라서, 상관계수의 정확한 의미는 알지 못하더라도, 상관계수가 대충 어떤 것인지는 많은 사람들이 알고 있습니다. 한번 개념을 정립하고 넘어가도록 하겠습니다. 먼저, 상관분석이란 두 변수의 관계에서 하나의 변수가 증가하면, 다른 하나의 변수도 증가하는지 혹은 감소하는 경향이 있는지 확인을 하기 위해 분석을 진행합니다. 우리는 그러한 경향을 확인하기 위해 공분산(Covariance)이라는 값을 계산합니다. 공분산과 상관계수 COV[X,Y]=E[(X−¯X)(Y−¯Y)] 이렇게 계산을 하면, X와 Y의 상관관계를 계산할 수가 있..

7. 분산분석(R Code) 분산분석을 R에서 실행하는 방법은 다음과 같습니다. 분석하고자 하는 것은 *satisfaction_level(직무 만족도)의 평균이 salary(연봉 수준, low, medium, high) 집단에 따라 차이가 있는지 통계적으로 검정하고자 합니다. * 귀무가설은 다음과 같습니다. H0:salary(연봉) 수준별로 satisfaction level(직무만족도)의 평균이 같을 것이다. H1:not;H0 ANOVA = aov(satisfaction_level ~ salary, data = HR) summary(ANOVA) Df Sum Sq Mean Sq F value Pr(>F) salary 2 2.3 1.1693 18.96 5.97e-09 *..

6. 분산분석 분산분석은 t검정과 마찬가지로 차이를 보는 분석입니다. t검정과 다른 점은 분산분석은 두 집단은 물론이고 세 집단 이상에서도 집단 간 평균 차이를 볼 수 있는 점입니다. 두 집단에서 진행하면 t검정과 같은 결과를 줍니다. ANOVA(Analysis of Variance)의 의미를 조금 풀어서 해석해보자면 다음과 같습니다. 분산(변동)을 분석하여 평균을 비교한다.정도로 해석할 수 있습니다. 보통 차이를 비교할 때, 3개 이상의 개체에 대한 동시비교는 불가능합니다. 예를 들어, 사고 싶은 제품이 3개가 있는데, 그 중 1개만 살 수 있는 상황이라면 본능적으로 3개 중에 2개를 먼저 비교하고, 그 중 선택된 1개가 나머지 1개를 비교하여 구매할 제품을 선택하는 과정과 같습니다. 분산분..

5. t검정(R Code) 데이터는 앞단에서 다루었던 HR데이터를 이용하겠습니다. 이직 여부에 따라 직원들의 직무만족도에 차이가 있는지 검정을 하고자 합니다. 이 경우, 이직 여부(left)는 0 : 이직 안함, 1 : 이직이기 때문에 이직 여부는 2개의 수준을 가지고 있는 명목형 변수이고직무만족도(satisfaction_level)는 0 ~ 1 사이에 있는 연속형 변수입니다. 즉, 연속형 변수를 두 수준을 지니고 있는 명목형 변수에 따라 차이가 있는지 검정하고 싶기에 T 검정을 진행하는 것이 적합한 상황입니다. T 검정을 R에서 진행하는 방법은 다음과 같습니다. 등분산 검정 비교하고자 하는 두 잡단의 분산이 같은지 검정하기 위함입니다. H0:두 집단의 분산이 동일하다. $$ H..

4. t검정 일반적으로 t검정이라하면 독립표본 t검정을 의미합니다. 독립적인 두 집단에서 추출된 표본들의 평균이 차이가 있는지 확인하기 위해 실시되며 혹시 두 집단이 상황적으로 독립이 아닌 집단이라면 대응표본 t검정(paired t-test)등을 포함한 다른 분석을 진행하게 됩니다. 원리는 위에서 가설검정 파트에서 했던 일표본 t검정과 동일합니다. 두 개의 독립적인 정규모집단에서 추출된 표본을 통해 계산된 두 집단의 표본평균 차를 이용합니다. 두 표본평균 차의 분포를 확인 후 우리가 가지고 있는 표본에서 계산된 차이가 두 평균이 같다고 가정했을 때(귀무가설이 사실일 때) 충분히 나올 법한 차이인가를 검정하는 과정입니다. 독립표본 t검정의 특성 분석의 목적은 두 집단의 평균이 차이가 있는..

15. 가설검정 통계적 가설검정은 어떤 가설을 세우고 그 가설이 사실일 가능성과 사실이 아닐 가능성을 비교해서 의사결정을 하는 하나의 추론과정입니다. 그리고 언제나 강조하지만, 가능성은 곧 확률로 표현되고 확률을 계산하기 위해서는 확률분포가 필요합니다. 결국 추정량의 확률분포를 가정하거나 근사시키는 방법으로 구간추정과 동일한 아이디어, 동일한 결과를 보여줍니다. 가설검정을 이해하기 위해서는 몇 가지 용어에 대한 학습이 필요합니다. 정리해 보도록 하겠습니다. 귀무가설(Null Hypothesis, H0) 귀무가설은 분석자가 검정하기를 원하는 가설입니다. 또한 통계적 가설검정의 시작이자 끝입니다. 왜 그런지는 가설검정의 과정을 간단하게 요약하면 다음과 같습니다. 얻어진 표본을 이용해 귀무가설 하에서 가..

14. 구간추정 구간추정(interval estimation)은 점추정량의 변동을 이용해서 어느 정도의 구간을 추정하는 방법으로 그 결과물이 많이 들어보셨을 신뢰구간(confidence interval, C.I)입니다. 신뢰구간의 길이는 당연히 짧으면 짧을 수록 좋고 길면 사실상 실무적으로 아무 의미가 없을 가능성이 큽니다. 구간추정의 방법은 추정량의 분포를 근사 혹은 가정하여 그 확률 구조를 이용하는 방법부터 여러번의 재추출을 통해 경험적인 방법을 이용하는 것까지 다양하지만 여기서는 전자만 다루도록 하겠습니다. 구간추정의 기본적인 원리는 점추정 값에 그 점추정량의 확률 구조와 점추정량의 변동 정도를 가미하는 것입니다. 구간추정의 기본 요소는 다음 3가지라고 할 수 있습니다. 점추정값 점추정을 한 값입니..