일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- R 결측치
- ggplot2
- ggplot()
- 주식데이터시각화
- R ggplot2
- 데이터 핸들링
- R문법
- ISLR
- 생존그래프
- R mutate
- 콕스비례모형
- 미국 선거데이터
- 확률실험
- R dplyr
- R filter
- ggsurvplot
- 강화학습 #추천서적 #강화학습인액션
- R 연습문제
- 카플란마이어
- R
- 이산형 확률분포
- 생존분석
- Bias-Variance Tradeoff
- 교차타당성
- dplyr
- geom_errorbar
- R select
- 데이터핸들링
- CrossValidation
- 의사결정나무
- Today
- Total
목록분류 전체보기 (56)
Must Learning With Statistics

13. 점추정 추정량은 우리가 알고 싶어하는 모수를 표본들을 이용하여 단 하나의 점으로 추측하는 통계량입니다. 그 과정을 점추정(Point estimation)이라고 하며, 그렇게 얻어진 통계량을 점주청량(Point estimator)라고 합니다. 점추정량은 다양한 방식으로 구할 수 있습니다. 모평균을 추정하기 위한 표본평균, 모분산을 추정하기 위한 표본평균 등이 대표적인 점추정량입니다. 물론 하나의 모수를 다른 방법을 통해 추정할 수도 있습니다. 각 끝의 일정 부분씩은 무시하고 나머지 표본들의 평균 계산(절삭평균, Trimmed Mean) 역시 모평균을 추정하는 하나의 점추정량이라고 할 수 있습니다. 하지만 역시 가장 많이 쓰는 척도는 표본평균입니다. 그 이유는 수리적인 확장성과 표본평균의 분포를 비교..

12. 통계적 추정과 검정 선거철이 다가올 경우, 여러분들은 수없이 많은 표본조사 결과를 여러 매체를 통해 접할 수가 있습니다. '어느 후보의 지지율이 OO%이며 신뢰수준 95%에서 조사가 되었다.' 이런 문구는 매우 익숙하실 것입니다. 통계 분석의 목적은 모집단을 대표할 수 있는 표본을 수집한 뒤, 모집단에 대해 추정을 진행하는 것입니다. 추정은 점추정량과 구간추정량으로 나뉘게 됩니다.일반적으로 추정량이라고 하면 점추정량을 의미하며 이는 모수를 단 하나의 점으로 추측하는 통계량입니다. 예를 들어, 우리가 A카페에 방문한 고객들의 연령대를 조사해야하는데, 모든 고객의 나이정보를 수집할 수가 없는 경우를 가정하겠습니다. 이 경우, 주어진 고객들의 나이 정보를 통해 전체 고객의 평균 나이를 소..

11. $\chi^2$ 분포와 $F$ 분포 (Chi-square distribution and F-distribution) 통계에서는 변동(분산)은 비교, 관계 등 모든 분석에서 사용되는 개념입니다. 변동은 단순히 해당 변수의 퍼짐 정도를 나타내는 것뿐 아니라 비교의 신뢰성을 표현하기도 합니다. 예를 들어, 두 집단의 평균이 큰 차이가 없어도 그 평균의 변동이 크다면 신뢰하기 힘듭니다. 또한 변동은 볼륨을 뜻하기도 합니다. A라는 변동과 B라는 변동이 있을 때, 비교를 통하여 더 큰 볼륨(파워, 확장성)을 가진 변동을 알 수 있습니다. 우리는 이러한 변동을 측정하는 도구로 제곱합 구조 ($\sum a^2$) 사용하게 됩니다. 그 이유는 변동을 측정하는 방법에 있습니다. 변동은 어떤 값을 기준으로 각 관찰..

$t$분포를 쉽게 이해하려면, 이 분포는 순전히 평균 검정을 하기 위해 고안되었다는 점을 알고있어야 합니다. 만약 모집단이 정규분포를 따른다고 하면, 표본평균은 $N(\mu, ; \frac {\sigma^2}{n})$ 을 따른다는 것을 기억하실 겁니다. 그래서 과거에는 이를 이용하여 평균 검정을 해왔는데, 일반적으로 우리는 모분산인 $\sigma^2$을 알 길이 없습니다. 만약 $n$이 매우 크다면 표본평균은 더욱 정확히 정규분포를 따를 것이고, 표본평균의 분산 역시 0으로 점차 수렴하게 될 것입니다. 이 경우, 사실상 $\sigma^2$의 영향이 미미하게 되어 무시할 수 있지만, 표본 수가 작을 때는 문제가 될 수 있습니다. 모분산 $\sigma^2$을 정확히 알 수 없을 뿐 아니라, 그 값에 따라 정..

8. 모수(parameter)와 통계량(statistic) 모수 : 통계적 추론에서 분석자의 최종목표이자 모집단(population)의 특성 모집단 : 분석 대상이 되는 집단의 전체 통계량 : 해당 모집단에서 추출한 표본(sample)을 이용해 만든 것으로 표본들의 함수 표본 : 모집단으로부터 무작위 추출이 되었으며, 모집단을 대표하는 분석 대상 검정 : 주장하고자 하는 가설이 맞는지 틀린지에 대한 의사결정 과정 추정 : 표본(통계량)을 이용하여 모집단(모수)를 추정하는 과정 점추정량 : 하나의 값(점)으로 모수를 추정한 값 구간추정량 : 신뢰구간을 통해 모수를 포함하고 있을 범위를 추정한 값들의 범위 때로는 통계적 검정을 위해 특수한 통계량을 사용하기도 하고 모수를 추정하기 위해 통계량을 구해보기도 합..

7. 정규분포(Normal Distribution) 정규분포는 주어진 데이터의 형태가 산봉우리일 때 가정되는 분포입니다. 흔히 '종모양'에 비유하기도 합니다. 종모양이라함은 중심에 많은 데이터들이 모여있고 중심에서 멀어질수록 적은 데이터를 포함합니다. 또한 중심을 기준으로 좌우가 대칭적인 형태를 가지고 있습니다. 이는 곧 데이터의 중심과 산술적인 평균이 동일함을 의미합니다. 과거의 학자들은 많은 분야의 연속형 데이터들이 이런 형태를 띈다는 것을 발견하였고 그에 착안하여 정규분포를 고안하였습니다. 위에서 언급했던 것처럼 연속형 자료는 수집 상황이 분포를 결정하는 것이 아니고 데이터의 형태를 보고 그에 알맞는 분포를 선택한다는 것을 생각하면 지극히 상식적인 관점에서 만들어진 분포라고 생각할 수 있습니다. 그..

6. 연속형 확률분포 연속형 확률분포는 이산형과는 다르게 상황이 분포를 결정짓지 못합니다. 데이터들의 형태를 보고 추측하는 정도가 전부입니다. 통계에서는 그것을 분포 가정이라고 표현하며 실질적으로 저희가 분석하는 대부분의 것들은 이 분포 가정을 통해 이루어집니다. 연속형 확률변수는 이산형 확률변수와는 다르게, 구간으로 정의역이 정의됩니다. $$ P[a

5. 포아송분포(Poisson Distribution) 포아송분포 : 일정 단위에서 평균 성공 수가 $\lambda$일 때 성공 횟수를 확률변수로 하는 분포 포아송 분포는 $n$이 충분히 크고 성공확률 $p$가 매우 작을 때, 이항분포에 대한 근사로 활용이 됩니다. 예를 들어 어떤 공장에서 10시간(일정 단위)마다 평균적으로 2개의 불량품(평균 성공 수 $\lambda$)이 발생된다면 불량품이 하나도 발생하지 않을 확률부터 수십, 수백개가 발생할 확률까지 성공 횟수에 따른 확률을 다루는 분포입니다. RP = rpois(n = 100 ,lambda = 2) ggplot(NULL) + geom_bar(aes(x = as.factor(RP),fill = as.factor(RP))) + theme_bw() + ..