일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- 미국 선거데이터
- ISLR
- R mutate
- 이산형 확률분포
- 생존분석
- 확률실험
- ggplot2
- CrossValidation
- R문법
- R 연습문제
- 데이터 핸들링
- 카플란마이어
- R dplyr
- R select
- ggplot()
- 강화학습 #추천서적 #강화학습인액션
- R 결측치
- R ggplot2
- 콕스비례모형
- R filter
- 생존그래프
- geom_errorbar
- 의사결정나무
- 교차타당성
- Bias-Variance Tradeoff
- 주식데이터시각화
- dplyr
- R
- 데이터핸들링
- ggsurvplot
- Today
- Total
목록전체 글 (56)
Must Learning With Statistics
모든 학문에는 끝판왕 분야가 있기 마련입니다. 개인적으로 통계학에서는 '베이지안 통계학'이 끝판왕이라고 생각하며, 인공지능 관련(머신러닝, 딥러닝)분야에서의 끝판왕은 '강화학습'이라고 생각합니다.이런 끝판왕 학문들은 공통점이 있는데, 공부하기가 참 어렵다는 것입니다. 기본적으로 내용이 어려운 것도 있지만, 가장 중요한 것은 다양한 교육자료가 부족하기 떄문입니다. 우리는 엄청나게 많은 시간을 구글에서 설명자료를 찾는데 투자합니다. 목적은 최대한 쉽고 간단하게 설명한 포스팅을 찾기 위함입니다. 하지만 이 두 분야는 그러기가 참 쉽지 않습니다. 애초에 글들이 많이 안올라와 있는 것이 가장 큰 이유입니다. 올라와 있는 자료들도 어디선가 많이 본 자료들을 재탕 및 재활용하는 포스팅들을 심심치 않게 볼 수도 있기마..
1. CART (Classification and Regression Tree) 의사결정나무는 정말 많은 분야에서 활용이 됩니다. 최근에는 의사결정나무가 아닌 다른 알고리즘들을 많이 활용한다 해도, 지금 당장 Google scholar에서 ‘Decision Tree’라고 검색을 하면 상당히 많은 최신 논문들이 검색이 되는 것을 확인할 수가 있습니다. 또한 의사결정나무는 보통 기계학습을 입문하시는 분들이 처음 접하시는 알고리즘이기도 합니다. 그렇기에 의사결정나무를 그냥 대충하고 넘어갈 수는 없습니다. 의사결정나무의 기본 컨셉은 알고리즘에 사용되는 Features에 대해 분리를 하는 것에서 시작합니다. 여러분들 모두 심리테스트 책을 보셨을 것이고, 거기서 ’당신은 OO에 해당하나요?’ 라는 질문에 대한 답을..
4. 로지스틱 회귀분석 로지스틱 회귀분석(logistic regression analysis)은 일반화 선형모형(generalized linear model, GLM)이라 불리는 큰 범주의 통계모형 모델링 방법에 속하는 방법입니다. 우선 GLM의 특징만 간단히 훑어보고 로지스틱 회귀모형에 대해 다루겠습니다. GLM(Generalized Linear Model) GLM은 문자 그대로 선형적이지 않은 대상(비선형)을 선형적으로 '일반화'시킨 모형입니다. 선형화 시키는 이유는 여러 가지가 있을 수 있지만, 가장 대표적으로 선형모형에서만 사용할 수 있는 모형의 해석, 확장, 수정 등의 방법을 사용하기 위해서입니다. 비선형모형의 경우는 모형을 다루는 방법이 많이 제한될 뿐만 아니라 새로운 데이터에 ..
2. 카이제곱 독립성 검정 카이제곱 독립성 검정은 두 범주형 변수가 독립적으로 분포하는지를 테스트하는 검정입니다. 이 역시 분할표에서 진행되며 일반적으로 2x2가 아닌 여러 범주를 갖고 있는 경우에 사용합니다. 카이제곱 독립성 검정의 기본적 아이디어는 관측빈도와 기대빈도(두 변수가 독립일 때의 빈도)의 차이를 비교하는 것입니다. 이 방법론을 자세히 살펴보면 다음과 같습니다. 각 범주(셀)의 기대빈도가 높다면(일반적으로 5를 기준으로 합니다), 정규분포 근사를 할 수 있습니다. 정규 근사가 가능하면 이를 이용해 카이제곱 통계량을 얻을 수 있습니다. (10장 참고) 이 카이제곱 통계량은 관측빈도와 기대빈도 차이의 변동을 정량화한 통계량입니다. 카이제곱 통계량이 충분히 높다면 관측빈도와 기대빈도의 차이는 크다..
13. 다항 회귀분석(Polynomial Regression) 다항 회귀분석 : 예측자들이 1차항으로 구성된 것이 아닌, 2차항, 3차항 등으로 구성되어 있는 회귀식 $$ \hat y = b_0+b_1x_i+b_2x_{i}^2+\cdots+b_px_p^{p} $$ 다항 회귀분석은 위 식처럼 구성이 될 수 있습니다. 다항회귀분석에서는 매우 중요한 개념이 하나 따라오는데, 이를 확인하고 다항 회귀분석을 진행하도록 하겠습니다. 분산-편차의 Trade off 관계 Trade off : 두 개의 목표 중에서 하나를 달성하려고 하면 다른 목표가 희생되어야 하는 관계를 의미합니다. 기계학습에서 예측 모형을 만드는 것은 항상 Trade off 관계를 생각해야 됩니다. 기본적으로 통계학에서는 모형의 Target Vari..
12. 다중 회귀분석(Multiple Regression) 다중 회귀분석 : 단순 선형회귀분석의 확장판으로 예측자가 2개 이상 쓰이는 경우 다중 회귀분석은 예측자를 2개 이상 쓰는 경우로, 회귀분석과 거의 동일하다고 볼 수 있습니다. 식 표현은 행렬식을 이용해 표현을 하는데, 이 책의 취지와는 맞지 않으므로 간단하게 다중 회귀분석을 진행할 때 주의해야할 점들에 대해 다루면서 진행하겠습니다. $$ \hat{y_i}=b_0+b_1x_{1i}+b_2x_{2i}\ $$ 회귀식이 위 식처럼 구해져 있을 때, 회귀식의 해석은 다음과 같이 진행합니다. $x_{1i}$가 1 단위 증가하면 $\hat{y_i}$는 $b_1$만큼 변한다.(단, $x2_i$는 고정) $x_{2i}$가 1 단위 증가하면 $\hat{y_i}$는..
11. 회귀분석(R Code) 회귀분석은 제가 만들어 둔 데이터로 진행을 하도록 하겠습니다. 데이터 다운로드 링크 : https://www.dropbox.com/sh/vtqlvrgdts2yfez/AAD_cd49dBcvgBNdz-C-A6TFa?dl=0 # 데이터 불러오기 Regression = read.csv("F:\\Dropbox\\DATA SET(Dropbox)/Regression.csv") 산점도 회귀분석은 우선적으로 산점도를 그려보고 선형성을 판단해야됩니다. library(ggplot2) ggplot(Regression,aes(x = X , y = y)) + geom_point() + geom_smooth(method = 'lm') + theme_classic() 산점도를 그려본 결과..
10. 단순 선형 회귀분석의 추정 회귀분석 : 인과관계를 가지고 있는 두 변수간의 함수관계를 통계적으로 규명하고자 하는 분석 분산분석과 회귀분석은 선형모형이라는 큰 줄기에서 같은 방법론이라는 말씀을 드린 바 있습니다. 두 모형 모두 예측자(predictor)에 따른 평균 반응값을 추정 혹은 예측하는 모형으로, 주어진 데이터를 통해서 선형 모형을 설정하고 새로운 값에 대한 반응값을 예측하는 것에 그 목적이 있습니다. 예측자란 반응 값을 예측하기 위해 사용되는 것으로 설명 변수(explanatory variable)와 혼용되는 개념으로 이해하시면 될 것 같습니다. 또한 아노바와 회귀모형의 차이점이 있다면 아노바와 달리 회귀분석은 일반적으로 연속형 예측자를 가지고 있는 경우에 사용된다는 점입니다. 회귀분석은 ..