일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 데이터 핸들링
- R 연습문제
- 데이터핸들링
- 이산형 확률분포
- 강화학습 #추천서적 #강화학습인액션
- 생존그래프
- R 결측치
- geom_errorbar
- ggplot()
- ggplot2
- R dplyr
- ggsurvplot
- R ggplot2
- 확률실험
- R select
- 생존분석
- 카플란마이어
- R filter
- R
- Bias-Variance Tradeoff
- dplyr
- 의사결정나무
- 주식데이터시각화
- R문법
- 콕스비례모형
- 교차타당성
- ISLR
- R mutate
- CrossValidation
- 미국 선거데이터
- Today
- Total
목록전체 글 (56)
Must Learning With Statistics
4. 다항분포(multinomial distribution) 다항분포 : 실험결과가 $k$개인 확률실험을 $n$번 반복하였을 때, 각 범주에 속하는 횟수를 확률변수로 하는 분포 다항분포는 이항분포의 확장입니다. 이항분포가 $n$번 시행에서 확률변수가 가질 수 있는 범주가 성공/실패 두 가지였다면, 다항분포에서는 $n$번 시행에서 확률변수가 가질 수 있는 범주가 $k$가지로 확장됩니다. 반대로 $k=2$인 경우, 이항분포가 됩니다. $K=3$인 경우인 다음 표를 보겠습니다. RM = as.data.frame(t(rmultinom(n = 1,size = 10,prob = c(0.2,0.5,0.3)))) RM = colSums(RM) ggplot(NULL) + geom_bar(aes(x = names(RM),..
3. 이항분포(Binomial distribution) 베르누이 시행 : 가능한 결과가 배타적인 두 가지 중 하나로 나타나는 확률 실험 이항분포 : 성공확률이 $p$인 베르누이 시행을 독립적으로 $n$번 실행하였을 때, 성공의 수를 확률변수로 정의하는 분포 이항분포는 확률변수가 배타적인 두 가지 범주를 갖고 각 시행은 독립적인 경우에서의 분포입니다. 이 시행을 베르누이 시행이라고도 합니다. 여기서 독립적이라는 것은 각 시행이 다른 시행에 전혀 영향을 미치지 않는다는 것입니다. 간단한 예로 팀원 중 10주 동안 무작위로 돌아가면서 당직을 서는데 남자가 당식을 서는 횟수에 관심이 있다고 합시다. 성별은 남자, 여자 두 가지 경우만 상호 배타적으로 존재하므로 조건에 부합합니다. 그런데 만약 한 번 뽑힌 사람을..
2. 이산형 확률분포 첫 번째 챕터에서 확률변수의 개념을 말씀드리면서 확률변수는 가능한 값들에 대한 확률이 알려져 있고 그것을 계산하는 계산하는 함수가 확률함수(Probability Function)라는 것을 말씀드렸습니다. 그렇다면 이러한 확률들은 어떻게 알 수 있을까요. 그 확률변수들이 가지고 있는 확률의 구조를 알아야 하며 이 확률 구조를 흔히 확률분포(Probability Distribution)라고 합니다. 이산형 확률변수 => 이산형 확률분포 => 확률질량함수(Probability Mass Function, $pmf$) 연속형 확률변수 => 연속형 확률분포 => 확률밀도함수(Probability Density Function, $pdf$) 일반적으로 확률을 계산하는 대부분의 분석들은 이 확률분..
확률실험과 표본공간 확률 실험 : 같은 조건 하에서 실험을 반복할 때, 그 결과가 예측불가능한 실험 표본 공간 : 확률 실험의 모든 가능한 결과들의 집합 통계 이론을 공부할 때 가장 먼저 알아야 될 용어는 확률실험입니다. 확률실험은 쉽게는 주사위 던지기부터 시작하여, 오늘 지각을 할지 안할지 실험하는 것 까지 모든 일상생활을 확률실험이라고 할 수 있습니다. 여기서 확률실험의 모든 가능한 결과들의 집합을 표본공간(Sample Sapce)이라고 합니다. 예를 들어, 동전을 던져 앞, 뒷면이 나오는지 확인하는 확률실험을 진행하였을 경우, 표본공간은 {앞, 뒤}가 됩니다. 확률변수(Random Variable) 확률변수 : 발생 가능한 모든 경우에 대해서 각각의 실숫값을 대입해주는 하나의 함수 다음으로는 통계학..
데이터 마이닝(Data Mining) 데이터마이닝은 데이터내에서 패턴을 찾아가는 과정을 의미합니다. 효과적인 마이닝을 위해서는 기계학습, 통계학, 데이터베이스 등의 기술들을 다같이 활용해야 합니다. 제 개인적으로는 ’데이터마이닝’이라는 단어를 그렇게 좋아하지는 않습니다. 그 이유는 어떤 현장에서도 ’데이터 마이닝’을 해와라 라고 시키지는 않습니다. 대신에 SQL 쿼리를 짜와라, 예측 분석을 해라, 유사성비교를 해라 등의 지시가 내려옵니다. 즉, 데이터마이닝은 너무 방대한 개념입니다. 학부 통계학과의 입장에서는 다변량 자료분석이 데이터마이닝으로 자연스럽게 연결이 됩니다. 또한 이 데이터 마이닝은 기계학습과 자동으로 연결이 되며, 마지막으로 기게학습은 딥러닝과 연결이 됩니다. 마지막으로 딥러닝은 최적화 이론..
Cross Validation 이번 포스팅에서는 Cross Validation에 대해 다루도록 하겠습니다. Cross Validation이란 Train, Test set을 나누는 과정을 피자조각처럼 나누어 할당하는 것으로 이해하시면 편합니다. 위 그림을 보시면 Data를 4조각으로 나눈 다음에 서로 돌아가면서 Test Set의 역할을 돌아가면서 하는 것을 확인할 수가 있습니다. 즉 쉽게 생각하면 Train set으로 모형을 만들고 Test set으로 검증하는 단계를 쪼갠 만큼 반복하는 것으로 생각하시면 됩니다. 이렇게 하는 이유는 모형의 타당성(Validation)확보에 있습니다. ’이렇게 나누고, 저렇게 나누어도 비슷한 결과가 나온다. 그러니 이 모형은 타당하다.’의 주장을 입증하기 위함입니다. 여기서..
지도학습에서의 적합한 통계모형 추정 방식 이번에는 적합한 통계모형을 추정하는 방법에 대해 다루도록 하겠습니다. 기본적으로 적합한 통계모형을 추정하기 위해서는 선형모형에 대한 기본적인 이해가 전제가 되어야 합니다. 참고) https://mustlearning.tistory.com/14?category=859137 위 링크에 해당되는 회귀분석에 대한 기본적인 이해가 있다는 가정하에서 포스팅을 작성하도록 하겠습니다. 최소제곱법 회귀분석을 간단하게 짚고 넘어가자면, ’인과관계를 가지고 있는 변수들 간의 함수적 관계를 통계적으로 규명하고자 한다’라고 할 수 있습니다. 인과관계와 함수적 관계는 Input에 대해 그 Output이 나온다는 것으로 이해하시면 됩니다. 그다음에 통계적으로 규명한다는 것은 데이터에 존재하..
지도학습과 비지도학습 이번 포스팅은 통계적 학습방법(Statistical Learning)에 대해 다루어보도록 하겠습니다. 통계적 학습은 크게 지도학습(Supervised Learning)과 비지도학습(Unsupervised Learning)으로 분류가 됩니다. 여기서 좀 더 추가해보자면 강화학습(Reinforcement Learning)이라 불리는 알고리즘은 지도학습과 비지도학습과는 다른 방식인 Agent Learning의 구조를 가집니다. 지도학습(Supervised Learning) 지도학습이란 특정한 결과값을 예측(prediction) 및 추정(estimation)을 하기위해 통계적인 모형을 구성하는 것을 의미합니다. 예를 들어, ‘마케팅 비용 투자대비 효과 예측 문제’, ‘여러 요인들을 고려한 ..