일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- R 연습문제
- 교차타당성
- 생존그래프
- 데이터핸들링
- ggplot()
- 강화학습 #추천서적 #강화학습인액션
- ISLR
- ggsurvplot
- R select
- ggplot2
- 의사결정나무
- R
- 콕스비례모형
- 확률실험
- 생존분석
- geom_errorbar
- R filter
- 이산형 확률분포
- 주식데이터시각화
- 카플란마이어
- 미국 선거데이터
- 데이터 핸들링
- R 결측치
- R문법
- CrossValidation
- Bias-Variance Tradeoff
- R mutate
- dplyr
- R ggplot2
- R dplyr
- Today
- Total
목록2020/03/17 (2)
Must Learning With Statistics
데이터 마이닝(Data Mining) 데이터마이닝은 데이터내에서 패턴을 찾아가는 과정을 의미합니다. 효과적인 마이닝을 위해서는 기계학습, 통계학, 데이터베이스 등의 기술들을 다같이 활용해야 합니다. 제 개인적으로는 ’데이터마이닝’이라는 단어를 그렇게 좋아하지는 않습니다. 그 이유는 어떤 현장에서도 ’데이터 마이닝’을 해와라 라고 시키지는 않습니다. 대신에 SQL 쿼리를 짜와라, 예측 분석을 해라, 유사성비교를 해라 등의 지시가 내려옵니다. 즉, 데이터마이닝은 너무 방대한 개념입니다. 학부 통계학과의 입장에서는 다변량 자료분석이 데이터마이닝으로 자연스럽게 연결이 됩니다. 또한 이 데이터 마이닝은 기계학습과 자동으로 연결이 되며, 마지막으로 기게학습은 딥러닝과 연결이 됩니다. 마지막으로 딥러닝은 최적화 이론..
Cross Validation 이번 포스팅에서는 Cross Validation에 대해 다루도록 하겠습니다. Cross Validation이란 Train, Test set을 나누는 과정을 피자조각처럼 나누어 할당하는 것으로 이해하시면 편합니다. 위 그림을 보시면 Data를 4조각으로 나눈 다음에 서로 돌아가면서 Test Set의 역할을 돌아가면서 하는 것을 확인할 수가 있습니다. 즉 쉽게 생각하면 Train set으로 모형을 만들고 Test set으로 검증하는 단계를 쪼갠 만큼 반복하는 것으로 생각하시면 됩니다. 이렇게 하는 이유는 모형의 타당성(Validation)확보에 있습니다. ’이렇게 나누고, 저렇게 나누어도 비슷한 결과가 나온다. 그러니 이 모형은 타당하다.’의 주장을 입증하기 위함입니다. 여기서..