일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
- 콕스비례모형
- R
- 미국 선거데이터
- 확률실험
- 카플란마이어
- R문법
- R dplyr
- geom_errorbar
- 강화학습 #추천서적 #강화학습인액션
- 주식데이터시각화
- 생존그래프
- R mutate
- 생존분석
- ggplot2
- R ggplot2
- ISLR
- dplyr
- R select
- ggplot()
- 데이터 핸들링
- ggsurvplot
- R 연습문제
- 의사결정나무
- R 결측치
- Bias-Variance Tradeoff
- 이산형 확률분포
- CrossValidation
- 데이터핸들링
- 교차타당성
- R filter
- Today
- Total
목록2020/02 (8)
Must Learning With Statistics
시계열 데이터는 매우 중요한 데이터 타입 중 하나입니다. 하지만, 시간의 흐름에 따라 값이 입력되는 데이터이기 때문에, 일반인 독립(Independent)데이터와 같은 방식으로 처리하면 잘못된 분석을 진행하게 됩니다. 이번 포스팅은 시계열 데이터를 다루는 방법 및 시각화를 하는 방법에 다루어보도록 하겠습니다. 데이터 다운로드 링크 : https://www.kaggle.com/timoboz/tesla-stock-data-from-2010-to-2020 0. 데이터 및 패키지 로드 library(ggplot2) library(dplyr) library(reshape) library(tseries) library(cowplot) library(forecast) TSLA = read.csv("D:\\Dropbo..
외래관광객실태조사 데이터를 활용한 국내관광지 연관규칙분석 이번 포스팅은 연관규칙에 대해서 다루어보도록 하겠습니다. 연관규칙(Association rules)는 장바구니 분석이라고도 합니다. 예를 들어, 제가 마트에서 ’네O퀵’이라는 제품을 샀으면 그와 함께 마실 우유도 같이 구매할 확률이 높을 것입니다. 이렇게 A라는 제품을 구매하였을 때, B라는 제품도 함께 구매하는 규칙의 패턴을 구하고자 하는 것이 연관규칙 분석의 목적입니다. 제 개인적으로 생각했을 때, 연관규칙 및 여기서 이어지는 추천시스템 알고리즘만큼 실제 비즈니스영역에서 활용되는 데이터 분석 방법론이 있을지 잘 모르겠습니다. 여러분들이 즐겨보시는 유튜브, 넷플릭스 등의 플랫폼들은 모두 이러한 알고리즘들을 기반으로 컨텐츠들을 추천해주고 있습니다...
마침 kaggle에 대한민국 코로나 데이터가 올라왔기에, 이를 통해 시각화를 해보도록 하겠습니다. 이번 포스팅은 대한민국 코로나 바이러스 확진자 데이터를 이용한 시각화를 진행해보도록 하겠습니다. 데이터는 다음 링크에서 받으시면 됩니다. 데이터 다운로드 링크: https://www.kaggle.com/kimdanny/covid19-in-south-korea 1. 데이터 불러오기 및 패키지 로딩 library(ggplot2) library(dplyr) library(reshape) Corona = read.csv("D:\\Dropbox\\DATA SET(Dropbox)\\covid19-in-south-korea\\Corona_rok.csv") dates confirmed deaths recovered 1/2..
Pandas 시간 다루기 이번 포스팅은 Pandas에서 시간을 다루는 방법에 대해 다루어보도록하겠습니다. 데이터를 분석하는데에 있어서, 시간 데이터를 다룰 때는 참 까다롭습니다. 데이터마다 입력 포맷이 다른 것은 물론이며, 일반 데이터와 동일하게 처리하는데에는 문제가 있기 떄문입니다. 기본적으로 날짜를 다루기 위해서는 datetime 모듈을 불러와야 합니다. 1. 현재시간 불러오기 import datetime # 현재시간(시스템 시간) 불러오기 datetime.datetime.now() datetime.datetime(2020, 2, 22, 15, 38, 42, 1214)이 포스팅이 작성되고 있는 시간이 기록되는 것을 확인하실 수가 있습니다. 2. 시간 포맷 변환하기 시간 데이터에는 포맷이 여러가지가 있..
Flexdashboard를 통한 Dashboard 만들기 2편 1편에서는 출력설정 및 레이아웃 배치를 주로 다뤄보았다면, 이번에는 컨텐츠를 작성하는 방법에 대해 다뤄보도록 하겠습니다. 먼저 컨텐츠의 종류는 다음과 같습니다. 설명 Text 작성 ggplot 및 plotly 적용해서 그래프 작성 value Box & gauge 함수를 통한 KPI 정보 제공 render 함수를 통해 동적 그래프 생성 기타 아이콘 코드 및 색상 조정 1. 설명 Text 작성 그냥 작성하면 됩니다. 다만 Markdown 문법을 조금 익히시고 쓰면 더 효과적일 것입니다. 2. ggplot 및 plotly 적용해서 그래프 작성 'plotly' 패키지를 설치한 후, ggplot으로 작성한 그래프를 ggplotly()함수로 덮어주면 완..
R을 통해 Dashboard 만들어 보기 Ch1. Dashboard란? BI(Business Intelligence) 화면이라고도 할 수 있습니다. 데이터 시각화의 결과를 한 눈에 볼 수 있도록 구성되어 있는 하나의 보고서(화면) 입니다. 무엇보다 실무에서 많이 쓰이며, 보통 태블로, Qlik Sense 등의 BI tool로 작업이 진행됩니다. 저희가 R을 통해 만들어 보는 것은 복습하고자 하는 것도 있으며, 직접 가공한 데이터들을 통해 하나의 결과물을 만들어 보고자 하는 목표입니다. Ch2. 마크다운 마크다운은 많은 개발자들이 선호하는 문서 편집기입니다. 작성방법이 매우 편리하며, 무엇보다 source code를 삽입하는 것이 매우 편리하여, 코드와 함께 결과보고서를 작성하는 데에는 마크다운보다 편리한..
R dplyr 사용자의 입장에서 Python 이해하기 1편(Pandas DataFrame) 1. R dplyr 패키지와 Python Pandas 패키지 이번 포스팅은 R과 Python을 동시에 사용해야하거나, R을 사용하던 입장에서 Python을 배워야 하는 분들을 위한 포스팅을 하고자 합니다. 기본적으로 R 사용자분들은 데이터 핸들링을 하는데에 있어서, dpylr 및 tidyverse패키지를 주로 사용하며 익숙합니다. 그리고 R은 기본적으로 데이터를 data.frame 혹은 tibble형태를 주로 다루기에, Python의 array, list, dict, DataFrame의 구조를 이해하기에 어려운 점이 있습니다. 이번 포스팅은 Python의 DataFrame을 다루는 Pandas패키지를 R dplyr..
1. 생존 그래프에 구간 표시하기 이번 포스팅에서는 지난 포스팅에서 그렸던 생존분석 그래프를 더 다양하게 그려보도록 하겠습니다. 생존분석을 진행하는 의사선생님들은 생존율이 90%, 80%, 70% 등 떨어지는 구간을 생존그래프에 표현하고 싶어합니다. 데이터는 저번 포스팅에서 썼던 데이터를 그대로 사용하도록 하겠습니다. 이번 포스팅부터는 survminer패키지는 사용하지 않도록 하겠습니다. ggplot2만으로도 모든 것을 다 그릴 수 있기 때문입니다. 데이터 다운로드 링크: https://www.dropbox.com/sh/vtqlvrgdts2yfez/AAD_cd49dBcvgBNdz-C-A6TFa?dl=0 library(ggplot2) library(survival) Survival = read.csv("D..