일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 생존분석
- 확률실험
- R dplyr
- 데이터핸들링
- ggsurvplot
- R 결측치
- R문법
- 이산형 확률분포
- 주식데이터시각화
- 생존그래프
- 의사결정나무
- ISLR
- 교차타당성
- R ggplot2
- R mutate
- ggplot()
- R 연습문제
- 데이터 핸들링
- 콕스비례모형
- R select
- 카플란마이어
- R filter
- 미국 선거데이터
- ggplot2
- 강화학습 #추천서적 #강화학습인액션
- dplyr
- geom_errorbar
- R
- Bias-Variance Tradeoff
- CrossValidation
- Today
- Total
목록MustLearning with R 1편 (14)
Must Learning With Statistics

Ch14. 기계학습 1. 기계학습에 대한 정의 데이터로부터 패턴을 뽑아내는 자동화 프로세스를 기계학습이라고 정의합니다. 기계학습의 적용 분야는 매우 다양한데, 예시를 들자면 다음과 같습니다. 스팸메일 분류 알고리즘 고객들의 구매 패턴 분석 알고리즘 환자 진단 알고리즘 비젼, 음성, 문자 등 많은 분야에 적용이 가능 기계학습 모형의 가장 큰 목적은 예측 모형을 만드는 것에 있습니다. 좋은 예측 모형이란, 현재에 존재하지 않는 데이터에 대해서도 예측값을 잘 맞추는 모형을 좋은 모형이라고 하며, 이런 모형을 일반화(generalize)가 잘 되었다고 합니다. 2. 기계학습에서 주의할 점 기계학습에서 예측 모형의 정확성을 떨어트리는 문제점은 2가지가 있습니다. Underfitting Underfitting은 F..

Chapter13. 기초통계이론 3단계 최소제곱법을 사용하는 일반적 회귀분석과 달리 GLM에서는 가정된 분포하에서 모형을 추정합니다. 이를 최대가능도법이라고 하는데 가능도(likelihood)라는 가능성의 개념을 이용한 추정방법입니다. 이 가능도라는 개념은 분포 가정만 합리적이라면 매우 파워풀하고 유용한 개념으로 통계 전체를 아우르고 있습니다. 이번 장에서는 가능도에 대한 개념과 가능도를 이용한 변수 선택(모형 선택) 방법을 다루겠습니다. 1. 가능도와 가능도함수 가능도(likelihood)는 가능성 혹은 공산이라는 의미를 갖고 있습니다. 조금 더 풀어서 말씀드리면 가정된 분포에서 주어진 데이터가 나올 가능성이라고 할 수 있습니다. 예를 들어 N(μ,σ2) 라는 정규분포를 따를 ..

Chapter12. 범주형 자료분석 범주형 자료분석은 변수들이 이산형 변수일 때 주로 사용하는 분석입니다. 예를 들어, 두 제품 간의 선호도가 성별에 따라 연관이 있는지 여부를 판단하고자 하는 경우, 각 집단 간의 비율차이가 있는지 확인하기 위한 경우 등에 주로 사용합니다. 범주형 변수를 다룰 때에는 일반적으로 그 빈도를 세서 표를 작성하게 됩니다. 만약 두 변수의 범주가 교차되어 있다면 이 표를 분할표(contingency table)라고 부릅니다. 사실 범주형 변수를 요약하는 방법은 이러한 분할표 말고는 적당한 것이 없습니다. 분할표를 통해서 범주 별 비교를 하고 분할표를 기반으로 범주형 변수의 독립성, 동질성 검정 등의 카이제곱 검정을 하게 됩니다. 그만큼 분할표는 쉽지만 중요한 개념이며 로지스틱 ..

Chapter11. 기초통계이론 2단계 1. 통계 모형 Preview 본격적으로 모델링을 시작하기에 앞서 간단한 주의사항 및 분석모형에 대한 소개를 하고 넘어가도록 하겠습니다. 흔히 사람들이 분석과정에서 실수하는 경우는 다음과 같은 상황입니다. 힘들게 어려워 보였던 예측 모형 및 알고리즘을 공부하고 이를 사용하기 위하여 바로 모델에 적합시키려고 하는 경우입니다. 물론 복잡한 모형을 적용시키면 결과가 잘 나올거 같고 멋도 있어 보일 수 있지만, 전혀 그렇지 않습니다. 데이터 분석은 요리와 비슷합니다. 어떤 요리를 할지 결정하고, 가져온 재료를 보지는 않죠. 데이터도 마찬가지입니다. 결국 분석 모형은 데이터에 맞는 분석모형을 적용시켜야지, 무작정 어려운 분석모형 적용시킨다고해서 결과가 다 나오는 것이 아닙니..

Chapter10. 기초통계이론 1단계 엑셀 통계와 R 통계가 다른 부분 흔히, 통계를 전공하지 않은 사람들은 엑셀을 활용하여 데이터 분석을 진행합니다. 피벗테이블을 통해 데이터를 집계 내고, 함수를 이용하여 평균과 분산을 구하기도 합니다. 이러한 기초통계 분석은 R로도 할 수가 있으며, 언뜻보기에는 크게 다른점이 없어 보입니다. 오히려 프로그램이 더 직관적으로 구성이 되어 있는 엑셀이 편합니다. 그렇다면 R을 왜 해야 되는 것일까요? 바로 ’통계학’에 기반한 데이터 분석을 진행하기 위해서입니다. 그렇다면 통계학이 일반적인 기초분석과 다른 점은 무엇일까요? 그 부분은 바로 같은 평균을 계산할 때, 기초 통계는 정말 평균만을 뽑아내지만 통계학에서는 평균과 함께 ’분산’을 계산합니다. 즉 더 많은 정보를 활..

Chapter9. ggplot2를 활용한 다양한 그래프 그리기 이번 장에서는 ggplot2로 그릴 수 있는 그래프들의 종류에 대해 알아보도록 하겠습니다. library(ggplot2) library(dplyr) STOCK = read.csv("D:\\Dropbox\\DATA SET(Dropbox)\\uniqlo.csv") STOCKDate=as.Date(STOCKDate) STOCKYear=as.factor(format(STOCKDate,"%Y")) STOCKDay=as.factor(format(STOCKDate,"%a")) Group_Data = STOCK %>% group_by(Year,Day) %>% dplyr::summarise(Mean = round(mean(Open)), ..

Chapter8. R 데이터 시각화 R에는 ggplot2라는 강력한 시각화 패키지가 있으며, 요즘 여러 해외 저널에서는 ggplot2를 이용한 그래프를 시각화 도구로 많이 사용하고 있습니다. 이번 챕터에서는 이 ggplot2를 이용하여 데이터를 효과적으로 시각화하는 방법에 다루고자 합니다. 1. ggplot2 테마 수정 ggplot2()는 기본적으로 회색 바탕에 흰색 격자선이 기본 배경입니다. 하지만, 이를 싫어하는 분들도 분명 계실 것입니다. 이런 경우에는 테마를 변경하여 그래프를 그리면 원하시는 스타일로 그릴 수가 있습니다. 테마의 종류는 다음과 같습니다. library(ggplot2) library(ggthemes) HR = read.csv('F:/Dropbox/DATA SET/HR_comm..

Chapter7. R 중급문법 2단계 이번 장에서는 이전에 다루었던 dplyr를 조금 더 심도 있게 다룹니다. 0. 데이터 불러오기 다운로드 링크 : 추가 예정 library(dplyr) STOCK = read.csv("D:\\Dropbox\\DATA SET(Dropbox)\\Uniqlo_stocks2012-2016.csv") STOCKDate=as.Date(STOCKDate) STOCKYear=as.factor(format(STOCKDate,"%Y")) STOCKDay=as.factor(format(STOCKDate,"%a")) str(STOCK) 'data.frame': 1226 obs. of 9 variables: $ Date : Date, format: "2016-12-30"..