Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
Tags
- R 결측치
- 생존분석
- R 연습문제
- 미국 선거데이터
- ggsurvplot
- R
- 데이터핸들링
- dplyr
- geom_errorbar
- R mutate
- CrossValidation
- 주식데이터시각화
- ggplot2
- R dplyr
- R filter
- 생존그래프
- 교차타당성
- R문법
- 카플란마이어
- 데이터 핸들링
- ggplot()
- R ggplot2
- 확률실험
- R select
- 콕스비례모형
- 의사결정나무
- 강화학습 #추천서적 #강화학습인액션
- 이산형 확률분포
- Bias-Variance Tradeoff
- ISLR
Archives
- Today
- Total
Must Learning With Statistics
4. R 기본문법 3단계 본문
Chapter4. R 기본문법 3단계
이번 Chapter에서는 쉬어가는 느낌으로, 간단하게 통계값(Statistics)을 뽑아내는 방법들을 다뤄보도록 하겠습니다.
1. 변수에 대한 요약 값 살펴보기
변수가 Factor 형태일 때는 각 level(Low, Mid, High)에 해당하는 집계 Count를 나타내주며, Numeric 형태일 때는 최솟값, 최댓값, 평균 및 각 분위수를 나타내줍니다.
HR = read.csv('F:\\Dropbox\\DATA SET\\HR_comma_sep.csv')
summary(HR$salary)
high low medium
1237 7316 6446
summary(HR$satisfaction_level)
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.0900 0.4400 0.6400 0.6128 0.8200 1.0000
2. 분위수 계산
분위수(quantile)이란 변수를 오름차순으로 정리하였을 때, 특정 % 위치에 해당되는 값을 의미합니다. 예를 들어, Q1은 1분위수로 하위 25%에 해당되는 직원의 satisfaction_level값을 나타내줍니다. Median(중위수)는 중간(50%)에 해당되는 직원의 satisfaction_level을 나타내주며, Q3( 하위 75%, 상위 25%)의 기준에 해당되는 직원의 satisfaction_level을 의미합니다.
# 10%, 30%, 60%, 90%에 해당하는 분위수 뽑아내기
quantile(HR$satisfaction_level,probs = c(0.1,0.3,0.6,0.9))
10% 30% 60% 90%
0.21 0.49 0.72 0.92
3. 합, 평균, 표준편차 구하기
단일 변수의 합 구하기
sum(HR$satisfaction_level)
[1] 9191.89
단일 변수의 평균 구하기
mean(HR$last_evaluation)
[1] 0.7161017
단일 변수의 표준편차 구하기
sd(HR$satisfaction_level)
[1] 0.2486307
다중 변수의 합, 평균 구하기
- obs(행)별로 합,평균 구할 시에는 rowSums, rowMeans 활용
colMeans(HR[1:5])
satisfaction_level last_evaluation number_project
0.6128335 0.7161017 3.8030535
average_montly_hours time_spend_company
201.0503367 3.4982332
colSums(HR[1:5])
satisfaction_level last_evaluation number_project
9191.89 10740.81 57042.00
average_montly_hours time_spend_company
3015554.00 52470.00
4. 빈도 테이블 작성하기
1차원 빈도 테이블
TABLE = as.data.frame(table(HR$sales))
![](https://blog.kakaocdn.net/dn/P9ZuX/btqBBfno7Oj/aA9ouUGgHNT4ABSFrA26m1/img.jpg)
2차원 테이블
TABLE2 = as.data.frame(xtabs(~ HR$salary + HR$sales))
![](https://blog.kakaocdn.net/dn/bwh6ev/btqBCTYb1y7/FB8AJUAcaPKL2WNUBrw6gK/img.jpg)
5. 연습문제
-
HR 데이터에서 last_evaluation의 평균을 구하시오.
-
HR 데이터에서 last_evaluation의 표준편차를 구하시오.
-
HR 데이터에서 sales에 대한 빈도표를 작성하시오.
-
HR 데이터에서 left, salary에 대한 교차표를 작성하시오.
'MustLearning with R 1편' 카테고리의 다른 글
6. R 중급문법 2단계 (0) | 2020.01.29 |
---|---|
5. R 기본문법 4단계 (2) | 2020.01.29 |
3. R 기본문법 2단계 (1) | 2020.01.29 |
2. R 기본문법 1단계 (2) | 2020.01.29 |
1. R에 대한 소개 (1) | 2020.01.29 |
Comments