일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 콕스비례모형
- ggplot()
- R filter
- 의사결정나무
- 데이터핸들링
- geom_errorbar
- R 연습문제
- ggsurvplot
- R dplyr
- 주식데이터시각화
- 이산형 확률분포
- R
- 카플란마이어
- 강화학습 #추천서적 #강화학습인액션
- R문법
- 생존분석
- ggplot2
- ISLR
- R select
- R 결측치
- 데이터 핸들링
- CrossValidation
- R ggplot2
- R mutate
- Bias-Variance Tradeoff
- 생존그래프
- 확률실험
- dplyr
- 교차타당성
- 미국 선거데이터
- Today
- Total
Must Learning With Statistics
이산형 확률분포 본문
2. 이산형 확률분포
첫 번째 챕터에서 확률변수의 개념을 말씀드리면서 확률변수는 가능한 값들에 대한 확률이 알려져 있고 그것을 계산하는 계산하는 함수가 확률함수(Probability Function)라는 것을 말씀드렸습니다. 그렇다면 이러한 확률들은 어떻게 알 수 있을까요. 그 확률변수들이 가지고 있는 확률의 구조를 알아야 하며 이 확률 구조를 흔히 확률분포(Probability Distribution)라고 합니다.
이산형 확률변수 => 이산형 확률분포 => 확률질량함수(Probability Mass Function, $pmf$)
연속형 확률변수 => 연속형 확률분포 => 확률밀도함수(Probability Density Function, $pdf$)
일반적으로 확률을 계산하는 대부분의 분석들은 이 확률분포와 그에 따른 확률함수를 이용한 분석들입니다. 앞으로 배우게 될 추정과 검정과 같은 통계분석 역시 이 확률분포를 통해서 하게 됩니다. 그렇지만 실제 데이터에서 정확히 일치하는 확률분포를 고안해 내기는 쉬운 일이 아닙니다. 이산형 확률분포는 데이터의 수집 상황에 따라 결정될 수 있으나 연속형의 경우는 사실 뚜렷한 방법이 없기에 얻은 데이터를 기반으로 추측하는 것이 대부분입니다. 하지만, 사람들이 실험과 연구를 하다보니, 수 많은 확률분포에서 특정한 패턴을 나타내는 분포들을 발견하였고, 이를 정리하여 이론을 성립했습니다. 이제부터 해당 확률분포들에 대해 알아보도록 하겠습니다.
이산형 확률분포는 데이터가 수집되는 상황에 따라 결정될 수 있다고 했습니다. 이 말은 곧 어떤 식으로 데이터를 수집하냐 혹은 어떤 방식으로 데이터를 분류하냐에 따라 우리가 가장할 수 있는 분포의 종류가 바뀔 수 있다는 의미입니다.
확률질량함수($pmf$)는 다음의 수식으로 표현합니다.
$$
f_{x}(x)=P[X=x]
$$
수식의 해석은 간단합니다. $x$에 해당할 확률을 구한 값입니다.
'통계 이론' 카테고리의 다른 글
연속형 확률분포 (0) | 2020.03.22 |
---|---|
포아송분포 (Poisson Distribution) (0) | 2020.03.22 |
다항분포(Multinomial Distribution) (0) | 2020.03.22 |
이항분포(Binomial Distribution) (0) | 2020.03.22 |
표본공간과 확률변수 (0) | 2020.03.22 |