일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- Bias-Variance Tradeoff
- geom_errorbar
- R select
- 콕스비례모형
- 카플란마이어
- 미국 선거데이터
- ISLR
- 이산형 확률분포
- R
- ggplot()
- R 연습문제
- 강화학습 #추천서적 #강화학습인액션
- 생존그래프
- 데이터 핸들링
- ggplot2
- CrossValidation
- ggsurvplot
- R dplyr
- 의사결정나무
- R mutate
- 데이터핸들링
- R문법
- 교차타당성
- R 결측치
- 주식데이터시각화
- R filter
- 생존분석
- dplyr
- R ggplot2
- 확률실험
- Today
- Total
Must Learning With Statistics
상관분석 본문
만약 두개의 변수 간 관계를 분석하고 싶은 경우, 우리는 종종 상관계수(correlation)이란 것을 구하고는 합니다. 너무 유명한 용어라서, 상관계수의 정확한 의미는 알지 못하더라도, 상관계수가 대충 어떤 것인지는 많은 사람들이 알고 있습니다. 한번 개념을 정립하고 넘어가도록 하겠습니다.
먼저, 상관분석이란 두 변수의 관계에서 하나의 변수가 증가하면, 다른 하나의 변수도 증가하는지 혹은 감소하는 경향이 있는지 확인을 하기 위해 분석을 진행합니다. 우리는 그러한 경향을 확인하기 위해 공분산(Covariance)이라는 값을 계산합니다.
공분산과 상관계수
$$
COV[X,Y] = E[(X- \overline X)(Y- \overline Y)]
$$
이렇게 계산을 하면, X와 Y의 상관관계를 계산할 수가 있습니다. 하지만, 한가지 문제가 존재합니다. 공분산은 변수의 단위에 따라 범위가 무한대까지 확장됩니다. 즉, 변수가 바뀌면 공분산의 단위도 바뀌기 때문에 비교하는 값으로 확인하기에는 문제가 존재합니다. 이러한 문제점을 해결하기 위하여 공분산에 두 변수의 분산을 나누어줍니다. 그러면 공분산은 -1 ~ 1의 변수의 단위에 상관 없이 일정한 범위를 가지는 상관계수(Correlation)로 변환이 됩니다.
$$
Corr[X,Y] = \frac{COV[X,Y]}{VAR[X]\ VAR[Y]}
$$
$$
-1 \leq Corr[X,Y] \leq 1
$$
해석방법은 매우 간단합니다. 상관계수가 1에 가까울 수록 강한 긍정관계를 가지고 있는 것이고 -1에 가까울 수록 강한 부정관계를 가지고 있습니다. 만약 0에 가까울 경우, 두 변수는 관계가 없다고 해석할 수가 있습니다.
상관분석
상관분석이란, 두 변수 간의 상관관계가 0인지 아닌지 확인을 하는 통계적 검정방법입니다. 따라서 귀무가설과 대립가설은 다음처럼 세울 수가 있습니다.
$$
H_0: \rho=0
$$
$$
H_1: \rho \neq 0
$$
'통계 이론' 카테고리의 다른 글
단순 선형 회귀분석의 추정 (0) | 2020.03.23 |
---|---|
상관분석 (R code) (0) | 2020.03.23 |
분산분석(R Code) (0) | 2020.03.23 |
분산분석 (ANOVA) (0) | 2020.03.23 |
t검정(R Code) (1) | 2020.03.23 |