일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- 미국 선거데이터
- 주식데이터시각화
- R dplyr
- 데이터 핸들링
- 생존분석
- R 연습문제
- R ggplot2
- R mutate
- ggsurvplot
- CrossValidation
- 교차타당성
- 강화학습 #추천서적 #강화학습인액션
- R 결측치
- ggplot2
- dplyr
- geom_errorbar
- 의사결정나무
- 생존그래프
- ISLR
- R
- R filter
- 이산형 확률분포
- Bias-Variance Tradeoff
- 확률실험
- ggplot()
- 콕스비례모형
- R문법
- 카플란마이어
- 데이터핸들링
- R select
- Today
- Total
목록2020/03/23 (9)
Must Learning With Statistics
13. 다항 회귀분석(Polynomial Regression) 다항 회귀분석 : 예측자들이 1차항으로 구성된 것이 아닌, 2차항, 3차항 등으로 구성되어 있는 회귀식 $$ \hat y = b_0+b_1x_i+b_2x_{i}^2+\cdots+b_px_p^{p} $$ 다항 회귀분석은 위 식처럼 구성이 될 수 있습니다. 다항회귀분석에서는 매우 중요한 개념이 하나 따라오는데, 이를 확인하고 다항 회귀분석을 진행하도록 하겠습니다. 분산-편차의 Trade off 관계 Trade off : 두 개의 목표 중에서 하나를 달성하려고 하면 다른 목표가 희생되어야 하는 관계를 의미합니다. 기계학습에서 예측 모형을 만드는 것은 항상 Trade off 관계를 생각해야 됩니다. 기본적으로 통계학에서는 모형의 Target Vari..
12. 다중 회귀분석(Multiple Regression) 다중 회귀분석 : 단순 선형회귀분석의 확장판으로 예측자가 2개 이상 쓰이는 경우 다중 회귀분석은 예측자를 2개 이상 쓰는 경우로, 회귀분석과 거의 동일하다고 볼 수 있습니다. 식 표현은 행렬식을 이용해 표현을 하는데, 이 책의 취지와는 맞지 않으므로 간단하게 다중 회귀분석을 진행할 때 주의해야할 점들에 대해 다루면서 진행하겠습니다. $$ \hat{y_i}=b_0+b_1x_{1i}+b_2x_{2i}\ $$ 회귀식이 위 식처럼 구해져 있을 때, 회귀식의 해석은 다음과 같이 진행합니다. $x_{1i}$가 1 단위 증가하면 $\hat{y_i}$는 $b_1$만큼 변한다.(단, $x2_i$는 고정) $x_{2i}$가 1 단위 증가하면 $\hat{y_i}$는..
11. 회귀분석(R Code) 회귀분석은 제가 만들어 둔 데이터로 진행을 하도록 하겠습니다. 데이터 다운로드 링크 : https://www.dropbox.com/sh/vtqlvrgdts2yfez/AAD_cd49dBcvgBNdz-C-A6TFa?dl=0 # 데이터 불러오기 Regression = read.csv("F:\\Dropbox\\DATA SET(Dropbox)/Regression.csv") 산점도 회귀분석은 우선적으로 산점도를 그려보고 선형성을 판단해야됩니다. library(ggplot2) ggplot(Regression,aes(x = X , y = y)) + geom_point() + geom_smooth(method = 'lm') + theme_classic() 산점도를 그려본 결과..
10. 단순 선형 회귀분석의 추정 회귀분석 : 인과관계를 가지고 있는 두 변수간의 함수관계를 통계적으로 규명하고자 하는 분석 분산분석과 회귀분석은 선형모형이라는 큰 줄기에서 같은 방법론이라는 말씀을 드린 바 있습니다. 두 모형 모두 예측자(predictor)에 따른 평균 반응값을 추정 혹은 예측하는 모형으로, 주어진 데이터를 통해서 선형 모형을 설정하고 새로운 값에 대한 반응값을 예측하는 것에 그 목적이 있습니다. 예측자란 반응 값을 예측하기 위해 사용되는 것으로 설명 변수(explanatory variable)와 혼용되는 개념으로 이해하시면 될 것 같습니다. 또한 아노바와 회귀모형의 차이점이 있다면 아노바와 달리 회귀분석은 일반적으로 연속형 예측자를 가지고 있는 경우에 사용된다는 점입니다. 회귀분석은 ..
상관분석에서 주의할 점은 상관분석은 단순히 두 변수 간의 선형 관계를 파악하는 것뿐입니다. 즉 이 말은 비선형관계는 상관계수로 잡아내기 힘들 수가 있습니다. 다음의 예시를 통해 알아보도록 하겠습니다. library(ggplot2) x1 = runif(n = 100,min = -10, max = 10) y = x1 * 10 + rnorm(n = 100, mean = 3, sd = 5) ggplot() + geom_point(aes(x = x1, y= y),size = 3) + geom_text(aes(x = 5, y = -30),label = round(cor(x1,y),4)) + theme_bw() 위 두 변수는 산점도로 보나, 상관계수로 보나 거의 1에 가까운 상관계수를 가지고 있습니다. 이는 두 변수..
만약 두개의 변수 간 관계를 분석하고 싶은 경우, 우리는 종종 상관계수(correlation)이란 것을 구하고는 합니다. 너무 유명한 용어라서, 상관계수의 정확한 의미는 알지 못하더라도, 상관계수가 대충 어떤 것인지는 많은 사람들이 알고 있습니다. 한번 개념을 정립하고 넘어가도록 하겠습니다. 먼저, 상관분석이란 두 변수의 관계에서 하나의 변수가 증가하면, 다른 하나의 변수도 증가하는지 혹은 감소하는 경향이 있는지 확인을 하기 위해 분석을 진행합니다. 우리는 그러한 경향을 확인하기 위해 공분산(Covariance)이라는 값을 계산합니다. 공분산과 상관계수 $$ COV[X,Y] = E[(X- \overline X)(Y- \overline Y)] $$ 이렇게 계산을 하면, X와 Y의 상관관계를 계산할 수가 있..
7. 분산분석(R Code) 분산분석을 R에서 실행하는 방법은 다음과 같습니다. 분석하고자 하는 것은 *satisfaction_level(직무 만족도)의 평균이 salary(연봉 수준, low, medium, high) 집단에 따라 차이가 있는지 통계적으로 검정하고자 합니다. * 귀무가설은 다음과 같습니다. $$ H_0:salary(연봉)\ 수준별로\ satisfaction\ level(직무만족도)의\ 평균이\ 같을\ 것이다. $$ $$ H_1:not;H_0 $$ ANOVA = aov(satisfaction_level ~ salary, data = HR) summary(ANOVA) Df Sum Sq Mean Sq F value Pr(>F) salary 2 2.3 1.1693 18.96 5.97e-09 *..
6. 분산분석 분산분석은 $t$검정과 마찬가지로 차이를 보는 분석입니다. $t$검정과 다른 점은 분산분석은 두 집단은 물론이고 세 집단 이상에서도 집단 간 평균 차이를 볼 수 있는 점입니다. 두 집단에서 진행하면 $t$검정과 같은 결과를 줍니다. ANOVA(Analysis of Variance)의 의미를 조금 풀어서 해석해보자면 다음과 같습니다. 분산(변동)을 분석하여 평균을 비교한다.정도로 해석할 수 있습니다. 보통 차이를 비교할 때, 3개 이상의 개체에 대한 동시비교는 불가능합니다. 예를 들어, 사고 싶은 제품이 3개가 있는데, 그 중 1개만 살 수 있는 상황이라면 본능적으로 3개 중에 2개를 먼저 비교하고, 그 중 선택된 1개가 나머지 1개를 비교하여 구매할 제품을 선택하는 과정과 같습니다. 분산분..