Must Learning With Statistics

상관분석 본문

통계 이론

상관분석

Doublek Park 2020. 3. 23. 01:20

만약 두개의 변수 간 관계를 분석하고 싶은 경우, 우리는 종종 상관계수(correlation)이란 것을 구하고는 합니다. 너무 유명한 용어라서, 상관계수의 정확한 의미는 알지 못하더라도, 상관계수가 대충 어떤 것인지는 많은 사람들이 알고 있습니다. 한번 개념을 정립하고 넘어가도록 하겠습니다.
먼저, 상관분석이란 두 변수의 관계에서 하나의 변수가 증가하면, 다른 하나의 변수도 증가하는지 혹은 감소하는 경향이 있는지 확인을 하기 위해 분석을 진행합니다. 우리는 그러한 경향을 확인하기 위해 공분산(Covariance)이라는 값을 계산합니다.

공분산과 상관계수

$$
COV[X,Y] = E[(X- \overline X)(Y- \overline Y)]
$$
이렇게 계산을 하면, X와 Y의 상관관계를 계산할 수가 있습니다. 하지만, 한가지 문제가 존재합니다. 공분산은 변수의 단위에 따라 범위가 무한대까지 확장됩니다. 즉, 변수가 바뀌면 공분산의 단위도 바뀌기 때문에 비교하는 값으로 확인하기에는 문제가 존재합니다. 이러한 문제점을 해결하기 위하여 공분산에 두 변수의 분산을 나누어줍니다. 그러면 공분산은 -1 ~ 1의 변수의 단위에 상관 없이 일정한 범위를 가지는 상관계수(Correlation)로 변환이 됩니다.

$$
Corr[X,Y] = \frac{COV[X,Y]}{VAR[X]\ VAR[Y]}
$$

$$
-1 \leq Corr[X,Y] \leq 1
$$

해석방법은 매우 간단합니다. 상관계수가 1에 가까울 수록 강한 긍정관계를 가지고 있는 것이고 -1에 가까울 수록 강한 부정관계를 가지고 있습니다. 만약 0에 가까울 경우, 두 변수는 관계가 없다고 해석할 수가 있습니다.

상관분석

상관분석이란, 두 변수 간의 상관관계가 0인지 아닌지 확인을 하는 통계적 검정방법입니다. 따라서 귀무가설과 대립가설은 다음처럼 세울 수가 있습니다.

$$
H_0: \rho=0
$$
$$
H_1: \rho \neq 0
$$

'통계 이론' 카테고리의 다른 글

단순 선형 회귀분석의 추정  (0) 2020.03.23
상관분석 (R code)  (0) 2020.03.23
분산분석(R Code)  (0) 2020.03.23
분산분석 (ANOVA)  (0) 2020.03.23
t검정(R Code)  (1) 2020.03.23
Comments