일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- geom_errorbar
- 콕스비례모형
- 데이터핸들링
- 확률실험
- 교차타당성
- dplyr
- CrossValidation
- R dplyr
- 생존그래프
- 이산형 확률분포
- ggplot2
- R filter
- 데이터 핸들링
- R 연습문제
- 주식데이터시각화
- R ggplot2
- R mutate
- Bias-Variance Tradeoff
- ggsurvplot
- R 결측치
- 강화학습 #추천서적 #강화학습인액션
- R문법
- 의사결정나무
- ISLR
- 카플란마이어
- R
- ggplot()
- R select
- 미국 선거데이터
- 생존분석
- Today
- Total
목록데이터마이닝 (5)
Must Learning With Statistics

1. CART (Classification and Regression Tree) 의사결정나무는 정말 많은 분야에서 활용이 됩니다. 최근에는 의사결정나무가 아닌 다른 알고리즘들을 많이 활용한다 해도, 지금 당장 Google scholar에서 ‘Decision Tree’라고 검색을 하면 상당히 많은 최신 논문들이 검색이 되는 것을 확인할 수가 있습니다. 또한 의사결정나무는 보통 기계학습을 입문하시는 분들이 처음 접하시는 알고리즘이기도 합니다. 그렇기에 의사결정나무를 그냥 대충하고 넘어갈 수는 없습니다. 의사결정나무의 기본 컨셉은 알고리즘에 사용되는 Features에 대해 분리를 하는 것에서 시작합니다. 여러분들 모두 심리테스트 책을 보셨을 것이고, 거기서 ’당신은 OO에 해당하나요?’ 라는 질문에 대한 답을..
데이터 마이닝(Data Mining) 데이터마이닝은 데이터내에서 패턴을 찾아가는 과정을 의미합니다. 효과적인 마이닝을 위해서는 기계학습, 통계학, 데이터베이스 등의 기술들을 다같이 활용해야 합니다. 제 개인적으로는 ’데이터마이닝’이라는 단어를 그렇게 좋아하지는 않습니다. 그 이유는 어떤 현장에서도 ’데이터 마이닝’을 해와라 라고 시키지는 않습니다. 대신에 SQL 쿼리를 짜와라, 예측 분석을 해라, 유사성비교를 해라 등의 지시가 내려옵니다. 즉, 데이터마이닝은 너무 방대한 개념입니다. 학부 통계학과의 입장에서는 다변량 자료분석이 데이터마이닝으로 자연스럽게 연결이 됩니다. 또한 이 데이터 마이닝은 기계학습과 자동으로 연결이 되며, 마지막으로 기게학습은 딥러닝과 연결이 됩니다. 마지막으로 딥러닝은 최적화 이론..
Cross Validation 이번 포스팅에서는 Cross Validation에 대해 다루도록 하겠습니다. Cross Validation이란 Train, Test set을 나누는 과정을 피자조각처럼 나누어 할당하는 것으로 이해하시면 편합니다. 위 그림을 보시면 Data를 4조각으로 나눈 다음에 서로 돌아가면서 Test Set의 역할을 돌아가면서 하는 것을 확인할 수가 있습니다. 즉 쉽게 생각하면 Train set으로 모형을 만들고 Test set으로 검증하는 단계를 쪼갠 만큼 반복하는 것으로 생각하시면 됩니다. 이렇게 하는 이유는 모형의 타당성(Validation)확보에 있습니다. ’이렇게 나누고, 저렇게 나누어도 비슷한 결과가 나온다. 그러니 이 모형은 타당하다.’의 주장을 입증하기 위함입니다. 여기서..
지도학습에서의 적합한 통계모형 추정 방식 이번에는 적합한 통계모형을 추정하는 방법에 대해 다루도록 하겠습니다. 기본적으로 적합한 통계모형을 추정하기 위해서는 선형모형에 대한 기본적인 이해가 전제가 되어야 합니다. 참고) https://mustlearning.tistory.com/14?category=859137 위 링크에 해당되는 회귀분석에 대한 기본적인 이해가 있다는 가정하에서 포스팅을 작성하도록 하겠습니다. 최소제곱법 회귀분석을 간단하게 짚고 넘어가자면, ’인과관계를 가지고 있는 변수들 간의 함수적 관계를 통계적으로 규명하고자 한다’라고 할 수 있습니다. 인과관계와 함수적 관계는 Input에 대해 그 Output이 나온다는 것으로 이해하시면 됩니다. 그다음에 통계적으로 규명한다는 것은 데이터에 존재하..
지도학습과 비지도학습 이번 포스팅은 통계적 학습방법(Statistical Learning)에 대해 다루어보도록 하겠습니다. 통계적 학습은 크게 지도학습(Supervised Learning)과 비지도학습(Unsupervised Learning)으로 분류가 됩니다. 여기서 좀 더 추가해보자면 강화학습(Reinforcement Learning)이라 불리는 알고리즘은 지도학습과 비지도학습과는 다른 방식인 Agent Learning의 구조를 가집니다. 지도학습(Supervised Learning) 지도학습이란 특정한 결과값을 예측(prediction) 및 추정(estimation)을 하기위해 통계적인 모형을 구성하는 것을 의미합니다. 예를 들어, ‘마케팅 비용 투자대비 효과 예측 문제’, ‘여러 요인들을 고려한 ..