일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 주식데이터시각화
- 교차타당성
- ggsurvplot
- R mutate
- 생존그래프
- R 결측치
- 강화학습 #추천서적 #강화학습인액션
- R문법
- 미국 선거데이터
- 이산형 확률분포
- 데이터핸들링
- R select
- ISLR
- geom_errorbar
- R
- R filter
- R 연습문제
- 의사결정나무
- 데이터 핸들링
- 확률실험
- dplyr
- R dplyr
- ggplot2
- Bias-Variance Tradeoff
- 생존분석
- 카플란마이어
- ggplot()
- R ggplot2
- CrossValidation
- 콕스비례모형
- Today
- Total
목록R Code (6)
Must Learning With Statistics

1. 탐색적 자료분석 이번 포스팅에서는 중고자동차가격 데이터에 대해 EDA(탐색적 자료분석)를 진행해보도록 하겠습니다. 탐색적 자료분석(EDA, Exploratory Data Analysis)은 데이터 분석에 있어서 매우 중요한 step입니다. 절차는 본 분석에 진행되기에 앞서 어떻게 데이터를 분석할건지 탐색하는 것입니다. 사회에서 가장 통계분석을 못하는 유형은 탐색적 분석 절차를 거치지 않고 바로 모델링부터 도전하려는 사람들입니다. 이 글을 읽으시는 분들은 그런 실수를 안하시기를 바랍니다. 탐색적 자료분석은 정답이 있는 것이 아닙니다. 그저 짧은 시간을 투자해 최대한의 정보를 뽑아, 데이터에 대해 이해를 하는 단계라고 보시면 됩니다. 다양한 방법들이 존재하지만, 제가 주로 하는 방법은 ’시각화’입니다...

시계열 데이터는 매우 중요한 데이터 타입 중 하나입니다. 하지만, 시간의 흐름에 따라 값이 입력되는 데이터이기 때문에, 일반인 독립(Independent)데이터와 같은 방식으로 처리하면 잘못된 분석을 진행하게 됩니다. 이번 포스팅은 시계열 데이터를 다루는 방법 및 시각화를 하는 방법에 다루어보도록 하겠습니다. 데이터 다운로드 링크 : https://www.kaggle.com/timoboz/tesla-stock-data-from-2010-to-2020 0. 데이터 및 패키지 로드 library(ggplot2) library(dplyr) library(reshape) library(tseries) library(cowplot) library(forecast) TSLA = read.csv("D:\\Dropbo..

외래관광객실태조사 데이터를 활용한 국내관광지 연관규칙분석 이번 포스팅은 연관규칙에 대해서 다루어보도록 하겠습니다. 연관규칙(Association rules)는 장바구니 분석이라고도 합니다. 예를 들어, 제가 마트에서 ’네O퀵’이라는 제품을 샀으면 그와 함께 마실 우유도 같이 구매할 확률이 높을 것입니다. 이렇게 A라는 제품을 구매하였을 때, B라는 제품도 함께 구매하는 규칙의 패턴을 구하고자 하는 것이 연관규칙 분석의 목적입니다. 제 개인적으로 생각했을 때, 연관규칙 및 여기서 이어지는 추천시스템 알고리즘만큼 실제 비즈니스영역에서 활용되는 데이터 분석 방법론이 있을지 잘 모르겠습니다. 여러분들이 즐겨보시는 유튜브, 넷플릭스 등의 플랫폼들은 모두 이러한 알고리즘들을 기반으로 컨텐츠들을 추천해주고 있습니다...

마침 kaggle에 대한민국 코로나 데이터가 올라왔기에, 이를 통해 시각화를 해보도록 하겠습니다. 이번 포스팅은 대한민국 코로나 바이러스 확진자 데이터를 이용한 시각화를 진행해보도록 하겠습니다. 데이터는 다음 링크에서 받으시면 됩니다. 데이터 다운로드 링크: https://www.kaggle.com/kimdanny/covid19-in-south-korea 1. 데이터 불러오기 및 패키지 로딩 library(ggplot2) library(dplyr) library(reshape) Corona = read.csv("D:\\Dropbox\\DATA SET(Dropbox)\\covid19-in-south-korea\\Corona_rok.csv") dates confirmed deaths recovered 1/2..

Flexdashboard를 통한 Dashboard 만들기 2편 1편에서는 출력설정 및 레이아웃 배치를 주로 다뤄보았다면, 이번에는 컨텐츠를 작성하는 방법에 대해 다뤄보도록 하겠습니다. 먼저 컨텐츠의 종류는 다음과 같습니다. 설명 Text 작성 ggplot 및 plotly 적용해서 그래프 작성 value Box & gauge 함수를 통한 KPI 정보 제공 render 함수를 통해 동적 그래프 생성 기타 아이콘 코드 및 색상 조정 1. 설명 Text 작성 그냥 작성하면 됩니다. 다만 Markdown 문법을 조금 익히시고 쓰면 더 효과적일 것입니다. 2. ggplot 및 plotly 적용해서 그래프 작성 'plotly' 패키지를 설치한 후, ggplot으로 작성한 그래프를 ggplotly()함수로 덮어주면 완..

R을 통해 Dashboard 만들어 보기 Ch1. Dashboard란? BI(Business Intelligence) 화면이라고도 할 수 있습니다. 데이터 시각화의 결과를 한 눈에 볼 수 있도록 구성되어 있는 하나의 보고서(화면) 입니다. 무엇보다 실무에서 많이 쓰이며, 보통 태블로, Qlik Sense 등의 BI tool로 작업이 진행됩니다. 저희가 R을 통해 만들어 보는 것은 복습하고자 하는 것도 있으며, 직접 가공한 데이터들을 통해 하나의 결과물을 만들어 보고자 하는 목표입니다. Ch2. 마크다운 마크다운은 많은 개발자들이 선호하는 문서 편집기입니다. 작성방법이 매우 편리하며, 무엇보다 source code를 삽입하는 것이 매우 편리하여, 코드와 함께 결과보고서를 작성하는 데에는 마크다운보다 편리한..