일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 콕스비례모형
- R문법
- 카플란마이어
- 데이터 핸들링
- R select
- ggplot()
- Bias-Variance Tradeoff
- R 연습문제
- 데이터핸들링
- 주식데이터시각화
- geom_errorbar
- 생존그래프
- 의사결정나무
- ggsurvplot
- dplyr
- R ggplot2
- CrossValidation
- R filter
- ISLR
- R
- 생존분석
- 이산형 확률분포
- ggplot2
- R 결측치
- 교차타당성
- 미국 선거데이터
- R mutate
- 확률실험
- 강화학습 #추천서적 #강화학습인액션
- R dplyr
- Today
- Total
목록통계 이론 (26)
Must Learning With Statistics

11. $\chi^2$ 분포와 $F$ 분포 (Chi-square distribution and F-distribution) 통계에서는 변동(분산)은 비교, 관계 등 모든 분석에서 사용되는 개념입니다. 변동은 단순히 해당 변수의 퍼짐 정도를 나타내는 것뿐 아니라 비교의 신뢰성을 표현하기도 합니다. 예를 들어, 두 집단의 평균이 큰 차이가 없어도 그 평균의 변동이 크다면 신뢰하기 힘듭니다. 또한 변동은 볼륨을 뜻하기도 합니다. A라는 변동과 B라는 변동이 있을 때, 비교를 통하여 더 큰 볼륨(파워, 확장성)을 가진 변동을 알 수 있습니다. 우리는 이러한 변동을 측정하는 도구로 제곱합 구조 ($\sum a^2$) 사용하게 됩니다. 그 이유는 변동을 측정하는 방법에 있습니다. 변동은 어떤 값을 기준으로 각 관찰..

$t$분포를 쉽게 이해하려면, 이 분포는 순전히 평균 검정을 하기 위해 고안되었다는 점을 알고있어야 합니다. 만약 모집단이 정규분포를 따른다고 하면, 표본평균은 $N(\mu, ; \frac {\sigma^2}{n})$ 을 따른다는 것을 기억하실 겁니다. 그래서 과거에는 이를 이용하여 평균 검정을 해왔는데, 일반적으로 우리는 모분산인 $\sigma^2$을 알 길이 없습니다. 만약 $n$이 매우 크다면 표본평균은 더욱 정확히 정규분포를 따를 것이고, 표본평균의 분산 역시 0으로 점차 수렴하게 될 것입니다. 이 경우, 사실상 $\sigma^2$의 영향이 미미하게 되어 무시할 수 있지만, 표본 수가 작을 때는 문제가 될 수 있습니다. 모분산 $\sigma^2$을 정확히 알 수 없을 뿐 아니라, 그 값에 따라 정..

8. 모수(parameter)와 통계량(statistic) 모수 : 통계적 추론에서 분석자의 최종목표이자 모집단(population)의 특성 모집단 : 분석 대상이 되는 집단의 전체 통계량 : 해당 모집단에서 추출한 표본(sample)을 이용해 만든 것으로 표본들의 함수 표본 : 모집단으로부터 무작위 추출이 되었으며, 모집단을 대표하는 분석 대상 검정 : 주장하고자 하는 가설이 맞는지 틀린지에 대한 의사결정 과정 추정 : 표본(통계량)을 이용하여 모집단(모수)를 추정하는 과정 점추정량 : 하나의 값(점)으로 모수를 추정한 값 구간추정량 : 신뢰구간을 통해 모수를 포함하고 있을 범위를 추정한 값들의 범위 때로는 통계적 검정을 위해 특수한 통계량을 사용하기도 하고 모수를 추정하기 위해 통계량을 구해보기도 합..

7. 정규분포(Normal Distribution) 정규분포는 주어진 데이터의 형태가 산봉우리일 때 가정되는 분포입니다. 흔히 '종모양'에 비유하기도 합니다. 종모양이라함은 중심에 많은 데이터들이 모여있고 중심에서 멀어질수록 적은 데이터를 포함합니다. 또한 중심을 기준으로 좌우가 대칭적인 형태를 가지고 있습니다. 이는 곧 데이터의 중심과 산술적인 평균이 동일함을 의미합니다. 과거의 학자들은 많은 분야의 연속형 데이터들이 이런 형태를 띈다는 것을 발견하였고 그에 착안하여 정규분포를 고안하였습니다. 위에서 언급했던 것처럼 연속형 자료는 수집 상황이 분포를 결정하는 것이 아니고 데이터의 형태를 보고 그에 알맞는 분포를 선택한다는 것을 생각하면 지극히 상식적인 관점에서 만들어진 분포라고 생각할 수 있습니다. 그..

6. 연속형 확률분포 연속형 확률분포는 이산형과는 다르게 상황이 분포를 결정짓지 못합니다. 데이터들의 형태를 보고 추측하는 정도가 전부입니다. 통계에서는 그것을 분포 가정이라고 표현하며 실질적으로 저희가 분석하는 대부분의 것들은 이 분포 가정을 통해 이루어집니다. 연속형 확률변수는 이산형 확률변수와는 다르게, 구간으로 정의역이 정의됩니다. $$ P[a

5. 포아송분포(Poisson Distribution) 포아송분포 : 일정 단위에서 평균 성공 수가 $\lambda$일 때 성공 횟수를 확률변수로 하는 분포 포아송 분포는 $n$이 충분히 크고 성공확률 $p$가 매우 작을 때, 이항분포에 대한 근사로 활용이 됩니다. 예를 들어 어떤 공장에서 10시간(일정 단위)마다 평균적으로 2개의 불량품(평균 성공 수 $\lambda$)이 발생된다면 불량품이 하나도 발생하지 않을 확률부터 수십, 수백개가 발생할 확률까지 성공 횟수에 따른 확률을 다루는 분포입니다. RP = rpois(n = 100 ,lambda = 2) ggplot(NULL) + geom_bar(aes(x = as.factor(RP),fill = as.factor(RP))) + theme_bw() + ..

4. 다항분포(multinomial distribution) 다항분포 : 실험결과가 $k$개인 확률실험을 $n$번 반복하였을 때, 각 범주에 속하는 횟수를 확률변수로 하는 분포 다항분포는 이항분포의 확장입니다. 이항분포가 $n$번 시행에서 확률변수가 가질 수 있는 범주가 성공/실패 두 가지였다면, 다항분포에서는 $n$번 시행에서 확률변수가 가질 수 있는 범주가 $k$가지로 확장됩니다. 반대로 $k=2$인 경우, 이항분포가 됩니다. $K=3$인 경우인 다음 표를 보겠습니다. RM = as.data.frame(t(rmultinom(n = 1,size = 10,prob = c(0.2,0.5,0.3)))) RM = colSums(RM) ggplot(NULL) + geom_bar(aes(x = names(RM),..

3. 이항분포(Binomial distribution) 베르누이 시행 : 가능한 결과가 배타적인 두 가지 중 하나로 나타나는 확률 실험 이항분포 : 성공확률이 $p$인 베르누이 시행을 독립적으로 $n$번 실행하였을 때, 성공의 수를 확률변수로 정의하는 분포 이항분포는 확률변수가 배타적인 두 가지 범주를 갖고 각 시행은 독립적인 경우에서의 분포입니다. 이 시행을 베르누이 시행이라고도 합니다. 여기서 독립적이라는 것은 각 시행이 다른 시행에 전혀 영향을 미치지 않는다는 것입니다. 간단한 예로 팀원 중 10주 동안 무작위로 돌아가면서 당직을 서는데 남자가 당식을 서는 횟수에 관심이 있다고 합시다. 성별은 남자, 여자 두 가지 경우만 상호 배타적으로 존재하므로 조건에 부합합니다. 그런데 만약 한 번 뽑힌 사람을..