일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 데이터 핸들링
- 이산형 확률분포
- ggplot()
- 확률실험
- R ggplot2
- R dplyr
- dplyr
- Bias-Variance Tradeoff
- 생존분석
- R select
- R문법
- 교차타당성
- R 연습문제
- ISLR
- 카플란마이어
- 주식데이터시각화
- 의사결정나무
- R 결측치
- 데이터핸들링
- ggplot2
- R mutate
- ggsurvplot
- CrossValidation
- 콕스비례모형
- 강화학습 #추천서적 #강화학습인액션
- 생존그래프
- R
- geom_errorbar
- 미국 선거데이터
- R filter
- Today
- Total
목록통계 이론 (26)
Must Learning With Statistics

4. 로지스틱 회귀분석 로지스틱 회귀분석(logistic regression analysis)은 일반화 선형모형(generalized linear model, GLM)이라 불리는 큰 범주의 통계모형 모델링 방법에 속하는 방법입니다. 우선 GLM의 특징만 간단히 훑어보고 로지스틱 회귀모형에 대해 다루겠습니다. GLM(Generalized Linear Model) GLM은 문자 그대로 선형적이지 않은 대상(비선형)을 선형적으로 '일반화'시킨 모형입니다. 선형화 시키는 이유는 여러 가지가 있을 수 있지만, 가장 대표적으로 선형모형에서만 사용할 수 있는 모형의 해석, 확장, 수정 등의 방법을 사용하기 위해서입니다. 비선형모형의 경우는 모형을 다루는 방법이 많이 제한될 뿐만 아니라 새로운 데이터에 ..

2. 카이제곱 독립성 검정 카이제곱 독립성 검정은 두 범주형 변수가 독립적으로 분포하는지를 테스트하는 검정입니다. 이 역시 분할표에서 진행되며 일반적으로 2x2가 아닌 여러 범주를 갖고 있는 경우에 사용합니다. 카이제곱 독립성 검정의 기본적 아이디어는 관측빈도와 기대빈도(두 변수가 독립일 때의 빈도)의 차이를 비교하는 것입니다. 이 방법론을 자세히 살펴보면 다음과 같습니다. 각 범주(셀)의 기대빈도가 높다면(일반적으로 5를 기준으로 합니다), 정규분포 근사를 할 수 있습니다. 정규 근사가 가능하면 이를 이용해 카이제곱 통계량을 얻을 수 있습니다. (10장 참고) 이 카이제곱 통계량은 관측빈도와 기대빈도 차이의 변동을 정량화한 통계량입니다. 카이제곱 통계량이 충분히 높다면 관측빈도와 기대빈도의 차이는 크다..

13. 다항 회귀분석(Polynomial Regression) 다항 회귀분석 : 예측자들이 1차항으로 구성된 것이 아닌, 2차항, 3차항 등으로 구성되어 있는 회귀식 ˆy=b0+b1xi+b2x2i+⋯+bpxpp 다항 회귀분석은 위 식처럼 구성이 될 수 있습니다. 다항회귀분석에서는 매우 중요한 개념이 하나 따라오는데, 이를 확인하고 다항 회귀분석을 진행하도록 하겠습니다. 분산-편차의 Trade off 관계 Trade off : 두 개의 목표 중에서 하나를 달성하려고 하면 다른 목표가 희생되어야 하는 관계를 의미합니다. 기계학습에서 예측 모형을 만드는 것은 항상 Trade off 관계를 생각해야 됩니다. 기본적으로 통계학에서는 모형의 Target Vari..

12. 다중 회귀분석(Multiple Regression) 다중 회귀분석 : 단순 선형회귀분석의 확장판으로 예측자가 2개 이상 쓰이는 경우 다중 회귀분석은 예측자를 2개 이상 쓰는 경우로, 회귀분석과 거의 동일하다고 볼 수 있습니다. 식 표현은 행렬식을 이용해 표현을 하는데, 이 책의 취지와는 맞지 않으므로 간단하게 다중 회귀분석을 진행할 때 주의해야할 점들에 대해 다루면서 진행하겠습니다. ^yi=b0+b1x1i+b2x2i 회귀식이 위 식처럼 구해져 있을 때, 회귀식의 해석은 다음과 같이 진행합니다. x1i가 1 단위 증가하면 ^yi는 b1만큼 변한다.(단, x2i는 고정) x2i가 1 단위 증가하면 ^yi는..

11. 회귀분석(R Code) 회귀분석은 제가 만들어 둔 데이터로 진행을 하도록 하겠습니다. 데이터 다운로드 링크 : https://www.dropbox.com/sh/vtqlvrgdts2yfez/AAD_cd49dBcvgBNdz-C-A6TFa?dl=0 # 데이터 불러오기 Regression = read.csv("F:\\Dropbox\\DATA SET(Dropbox)/Regression.csv") 산점도 회귀분석은 우선적으로 산점도를 그려보고 선형성을 판단해야됩니다. library(ggplot2) ggplot(Regression,aes(x = X , y = y)) + geom_point() + geom_smooth(method = 'lm') + theme_classic() 산점도를 그려본 결과..

10. 단순 선형 회귀분석의 추정 회귀분석 : 인과관계를 가지고 있는 두 변수간의 함수관계를 통계적으로 규명하고자 하는 분석 분산분석과 회귀분석은 선형모형이라는 큰 줄기에서 같은 방법론이라는 말씀을 드린 바 있습니다. 두 모형 모두 예측자(predictor)에 따른 평균 반응값을 추정 혹은 예측하는 모형으로, 주어진 데이터를 통해서 선형 모형을 설정하고 새로운 값에 대한 반응값을 예측하는 것에 그 목적이 있습니다. 예측자란 반응 값을 예측하기 위해 사용되는 것으로 설명 변수(explanatory variable)와 혼용되는 개념으로 이해하시면 될 것 같습니다. 또한 아노바와 회귀모형의 차이점이 있다면 아노바와 달리 회귀분석은 일반적으로 연속형 예측자를 가지고 있는 경우에 사용된다는 점입니다. 회귀분석은 ..

상관분석에서 주의할 점은 상관분석은 단순히 두 변수 간의 선형 관계를 파악하는 것뿐입니다. 즉 이 말은 비선형관계는 상관계수로 잡아내기 힘들 수가 있습니다. 다음의 예시를 통해 알아보도록 하겠습니다. library(ggplot2) x1 = runif(n = 100,min = -10, max = 10) y = x1 * 10 + rnorm(n = 100, mean = 3, sd = 5) ggplot() + geom_point(aes(x = x1, y= y),size = 3) + geom_text(aes(x = 5, y = -30),label = round(cor(x1,y),4)) + theme_bw() 위 두 변수는 산점도로 보나, 상관계수로 보나 거의 1에 가까운 상관계수를 가지고 있습니다. 이는 두 변수..

만약 두개의 변수 간 관계를 분석하고 싶은 경우, 우리는 종종 상관계수(correlation)이란 것을 구하고는 합니다. 너무 유명한 용어라서, 상관계수의 정확한 의미는 알지 못하더라도, 상관계수가 대충 어떤 것인지는 많은 사람들이 알고 있습니다. 한번 개념을 정립하고 넘어가도록 하겠습니다. 먼저, 상관분석이란 두 변수의 관계에서 하나의 변수가 증가하면, 다른 하나의 변수도 증가하는지 혹은 감소하는 경향이 있는지 확인을 하기 위해 분석을 진행합니다. 우리는 그러한 경향을 확인하기 위해 공분산(Covariance)이라는 값을 계산합니다. 공분산과 상관계수 COV[X,Y]=E[(X−¯X)(Y−¯Y)] 이렇게 계산을 하면, X와 Y의 상관관계를 계산할 수가 있..