일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- R 결측치
- R ggplot2
- 이산형 확률분포
- R dplyr
- R
- dplyr
- 데이터핸들링
- 생존분석
- CrossValidation
- ISLR
- 교차타당성
- geom_errorbar
- 강화학습 #추천서적 #강화학습인액션
- 확률실험
- R 연습문제
- R문법
- ggplot()
- R filter
- 카플란마이어
- 미국 선거데이터
- 콕스비례모형
- 의사결정나무
- ggplot2
- 데이터 핸들링
- R mutate
- 주식데이터시각화
- R select
- Bias-Variance Tradeoff
- 생존그래프
- ggsurvplot
- Today
- Total
목록분류 전체보기 (56)
Must Learning With Statistics

Chapter8. R 데이터 시각화 R에는 ggplot2라는 강력한 시각화 패키지가 있으며, 요즘 여러 해외 저널에서는 ggplot2를 이용한 그래프를 시각화 도구로 많이 사용하고 있습니다. 이번 챕터에서는 이 ggplot2를 이용하여 데이터를 효과적으로 시각화하는 방법에 다루고자 합니다. 1. ggplot2 테마 수정 ggplot2()는 기본적으로 회색 바탕에 흰색 격자선이 기본 배경입니다. 하지만, 이를 싫어하는 분들도 분명 계실 것입니다. 이런 경우에는 테마를 변경하여 그래프를 그리면 원하시는 스타일로 그릴 수가 있습니다. 테마의 종류는 다음과 같습니다. library(ggplot2) library(ggthemes) HR = read.csv('F:/Dropbox/DATA SET/HR_comm..

Chapter7. R 중급문법 2단계 이번 장에서는 이전에 다루었던 dplyr를 조금 더 심도 있게 다룹니다. 0. 데이터 불러오기 다운로드 링크 : 추가 예정 library(dplyr) STOCK = read.csv("D:\\Dropbox\\DATA SET(Dropbox)\\Uniqlo_stocks2012-2016.csv") STOCKDate=as.Date(STOCKDate) STOCKYear=as.factor(format(STOCKDate,"%Y")) STOCKDay=as.factor(format(STOCKDate,"%a")) str(STOCK) 'data.frame': 1226 obs. of 9 variables: $ Date : Date, format: "2016-12-30"..

Chapter6. R 중급문법 1단계 1. 효과적인 데이터 핸들링을 위한 apply & dplyr 소개 R에는 매우 많은 명령어가 존재하며, 그 중 다수의 코드는 같은 기능을 하지만 명령어만 다를 뿐입니다. 그렇기에, 인터넷에 올라와 있는 R코드들을 살펴보면 작성자의 개성에 따라 다양하게 구성되어 있다는 것을 확인할 수 있습니다. 이는 곧 R의 가장 큰 장점이자 가장 큰 단점으로 작용합니다. 코드를 다양하고 편하게 작성할 수 있기 때문에, 편리와 다양성이 보장된 반면, 처음 접하는 사람들에게는 혼란을 야기하기 매우 좋으며, 정돈되어 있지가 않습니다. python은 numpy, pandas 등의 단일 패키지로 구성되어 있는 점과 비교하면 R은 지나치게 혼란스러울 수 있습니다. 하지만 그렇다고 파이썬이 R보..

Chapter5. R 기본문법 4단계 이번 챕터에서는 이전에 했던 데이터에 비해서는 좀 더 어려운 데이터를 통해 R을 익혀보도록 하겠습니다. 1. 데이터 불러오기 및 데이터 설명 데이터 출처는 Kaggle이며, 해당 드롭박스 링크에서 받으실 수 있습니다. 링크 : https://www.dropbox.com/sh/xx1w2syi768kfu0/AACZgxgo1fcxyDMgv9U-iTz8a?dl=0 # 데이터 불러오기 IMDB = read.csv("D:\\Dropbox\\DATA SET(Dropbox)\\IMDB-Movie-Data.csv") 변수 설명 Rank Title : 영화 제목 Genre : 영화 장르 Description : 영화 설명 Director : 감독명 Actors : 배우 Year : 영..

Chapter4. R 기본문법 3단계 이번 Chapter에서는 쉬어가는 느낌으로, 간단하게 통계값(Statistics)을 뽑아내는 방법들을 다뤄보도록 하겠습니다. 1. 변수에 대한 요약 값 살펴보기 변수가 Factor 형태일 때는 각 level(Low, Mid, High)에 해당하는 집계 Count를 나타내주며, Numeric 형태일 때는 최솟값, 최댓값, 평균 및 각 분위수를 나타내줍니다. HR = read.csv('F:\\Dropbox\\DATA SET\\HR_comma_sep.csv') summary(HRsalary)highlowmedium123773166446summary(HRsatisfaction_level) Min. 1st Qu. Median Mean 3rd Qu. Max. 0..

Chapter3. R 기본문법 2단계 이번 장부터는 R에 데이터를 불러와, 직접 다뤄보도록 하겠습니다. 데이터 출처는 Kaggle이며, 해당 드롭박스 링크에서 받으실 수 있습니다. 링크 : https://www.dropbox.com/sh/xx1w2syi768kfu0/AACZgxgo1fcxyDMgv9U-iTz8a?dl=0 1. 연습데이터 설명 이번에 다룰 데이터는 어떤 회사의 ‘HR(Human Resource, 인사관리)’ 데이터입니다. 변수 설명 satisfaction_level : 직무 만족도 last_evaluation : 마지막 평가점수 number_project : 진행 프로젝트 수 average_monthly_hours : 월평균 근무시간 time_spend_company : 근속년수 work_..

Chapter2. R 기본문법 1단계 기본적으로 Rstudio 편집기를 기준으로 진행합니다. Rstudio를 시작하기에 앞서, 몇 가지 중요한 Tip을 드리자면 다음과 같습니다. 처음 시작하는 분들이 가장 많이 틀리는 부분은 오타입니다. 소,대문자를 구분하기 때문에 오타가 특히 많이 발생합니다. 특히 ‘No such file or directory’라는 Error가 발생한다면 오타가 발생하거나, 저장을 안한 것이니 코드를 다시 한번 확인하시길 바랍니다. 작성하다가 Tab키를 누르면, 자동완성창이 뜹니다. 적극 활용하시길 바랍니다. 우측 상단의 Environment창에서 데이터가 잘 불러와지고 저장되고 있는지 꾸준히 확인하면서 진행하면, 오류 발생을 줄일 수가 있습니다. Rstudio는 한글에 친화적이지 ..

Chapter1. Intro 1. 서론 데이터 분석에 대해 생각을 해보는 시간을 가지고 시작하는 것이 좋을 것 같습니다. 지금 쓰는 글은 무조건적인 사실이기보다는, 평소에 제가 가지고 있는 생각을 쓰는 글이기에 가볍게 읽어주셨으면 합니다. 요즘 Big data, Data Scientist, Analyst 등의 단어를 자주 접할 수 있을 것입니다. 기술의 발전으로 인해 방대한 데이터를 분석할 수 있게 되었고, 오랜시간 기록되면서 누적되기만을 반복했던 데이터를 통해 새로운 기술을 개발하고, 인사이트를 얻을 수 있게 되었기 때문입니다. 여기서 기술의 발전은 컴퓨터 장비들의 발전이라고 생각하면 됩니다. 원래 머신러닝, 딥러닝 등 빅데이터 분석 기술의 이론과 알고리즘은 옛날부터 완성되어 있었습니다. 다만, 장비들..