일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 확률실험
- 카플란마이어
- ISLR
- 생존그래프
- ggsurvplot
- R
- 콕스비례모형
- R select
- 이산형 확률분포
- R filter
- 의사결정나무
- 주식데이터시각화
- 강화학습 #추천서적 #강화학습인액션
- R mutate
- R dplyr
- R ggplot2
- dplyr
- 생존분석
- R 연습문제
- R 결측치
- 데이터핸들링
- 교차타당성
- ggplot2
- 미국 선거데이터
- CrossValidation
- Bias-Variance Tradeoff
- R문법
- 데이터 핸들링
- geom_errorbar
- ggplot()
- Today
- Total
Must Learning With Statistics
단순 선형 회귀분석의 추정 본문
10. 단순 선형 회귀분석의 추정
회귀분석 : 인과관계를 가지고 있는 두 변수간의 함수관계를 통계적으로 규명하고자 하는 분석
분산분석과 회귀분석은 선형모형이라는 큰 줄기에서 같은 방법론이라는 말씀을 드린 바 있습니다. 두 모형 모두 예측자(predictor)에 따른 평균 반응값을 추정 혹은 예측하는 모형으로, 주어진 데이터를 통해서 선형 모형을 설정하고 새로운 값에 대한 반응값을 예측하는 것에 그 목적이 있습니다. 예측자란 반응 값을 예측하기 위해 사용되는 것으로 설명 변수(explanatory variable)와 혼용되는 개념으로 이해하시면 될 것 같습니다. 또한 아노바와 회귀모형의 차이점이 있다면 아노바와 달리 회귀분석은 일반적으로 연속형 예측자를 가지고 있는 경우에 사용된다는 점입니다. 회귀분석은 설명 예측자와 반응 값의 수에 따라 단순 회귀분석, 다중 회귀분석 등으로 분류되며 설명 예측자와 반응 값의 관계에 따라 선형 회귀분석, 다항 회귀분석(비선형 회귀분석) 등으로 나누어 집니다. 먼저 선형 회귀분석에 대해 알아보도록 하겠습니다.
일반적인 회귀분석의 가장 핵심 관점은 두 변수간의 관계를 선형적으로 바라보는 것입니다. 그렇기에 관계를 확인하려는 두 변수가 선형적이지 않다면 애초에 성립될 수 없는 것이 회귀분석입니다. 이러한 선형성은 분석 전에 산점도와 같은 그래프를 통해 확인하는 것이 일반적이며 선형 회귀분석 전체를 아우르는 중요한 가정이라고 할 수 있습니다.
회귀분석의 최종 목표는 두 변수 사이의 선형성이 존재한다는 가정하에 그 선형관계를 대표할 수 있는 하나의 직선을 구하는 것입니다. 예를 들어 Y와 X라는 두 변수 사이의 관계가 $Y= a+bX$ 라는 직선으로 대표될 수 있다면, 두 변수 사이의 관계를 한 눈에 알 수 있는 것은 물론이고 새로운 $X$값이 주어졌을 때 $Y$값을 손쉽게 예측할 수 있을 것입니다. 여기서 고민해 보아야 하는 것은 $X ,Y$ 관찰치가 주어졌을 때, 그 관계를 표현하는 $a$ 와 $b$ 를 어떤 방법으로 추정해야 가장 효율적이고 두 변수간의 관계를 정확히 나타낼 수 있을까에 대한 방법론적 문제입니다.
회귀분석에서는 잔차의 제곱합을 최소로 만들어주는 $a$와 $b$를 추정하는 방법을 택하였고 이를 최소제곱 추정법(method of least squares estimation)이라 부릅니다. 여기서 잔차(residual)는 실제 관측값과 예측된 값의 차이를 말하며 그 제곱합을 최소로 한다는 것은 해당 선과 실제 관측값의 차이의 총량을 최소로 하겠다는 것을 뜻합니다. 다음 그림을 참고하면 어렵지 않게 이해하실 수 있을 것입니다.
파란색 직선이 적합된 회귀선이고 검은 점들이 각 관찰치입니다. 이 경우 실제 관찰치와 적합된 회귀선의 차이가 바로 잔차이고 그 제곱은 위와 같이 사격형의 면적으로 표현될 것입니다.
잔차를 그냥 합하면 + / - 가 상쇄되어 의미가 없어지지만, 이런식으로 제곱 후에 총합 이용하면 실제 관찰치와 적합된 회귀선 사이의 차이를 표현해줄 수 있고 이것은 회귀선이 얼마나 관찰치들을 잘 대표하고 있는지에 대한 척도로 생각할 수 있습니다. 이런 관점에서 봤을 때 최소제곱법, 즉, 이 잔차제곱합을 최소화하는 회귀선은 충분히 합리적인 회귀선이라고 볼 수 있을 것입니다.
회귀선의 평가
최소제곱법을 이용하면 어떤 자료에서든 회귀선을 추정할 수 있고, 최소제곱법이 아무리 합리적인 방법이라고 하여도 관찰치들을 절대적으로 잘 대표하는 직선을 항상 제시하지는 못합니다. 그래서 회귀선을 적합시킨 후에는 꼭 그 회귀선이 얼마나 정확한지에 대한 검정을 해주어야 합니다. 이를 회귀선의 적합도 혹은 정도를 평가한다고 하며 분산분석의 아이디어를 그대로 가져와서 진행하게 됩니다.
$Y_i (관찰치)$, $\overline{Y}$(관찰치의 평균), $\hat{Y_i}$(회귀선에 의한 추정값)을 계산한다.
총 편차($Y_i-\overline{Y}$)를 회귀선을 기준으로 두 영역으로 나누어준다.
회귀선에 의해 설명이 가능한 영역 : $\hat{Y_i}-\overline{Y}$
회귀선에 의해 설명이 되지 않은 영역 : $Y_i-\hat{Y_i}$
모든 관찰치에 대해 제곱합을 계산한 후, 직교분해를 한다.
$$
\sum_{i=1 }^n (Y_i - \overline Y)^2 \ = \ \sum_{i=1 }^n (\hat Y_i - \overline Y)^2 \ + \ \sum_{i=1 }^n (Y_i - \hat Y_i)^2
$$
$$
SST \qquad = \qquad SSR \qquad + \qquad SSE
$$
- 분산분석과 마찬가지로 분산분석표를 작성하여 회귀선의 유의성 검정을 한다.
분산분석과 마찬가지로 회귀선으로 설명하는 상대적인 비중을 나타내는 $MSR$이 모형의 잔차(Error)를 설명하는 $MSE$보다 상대적으로 커야지 회귀선이 유의할 수 있습니다. 이 제곱합을 비교해주기 위해 마찬가지로 $F$분포를 이용합니다.
여기서 많은 분들이 SSE의 자유도를 이해하기 어려워 하십니다. 이는 결정계수($R^2$)와도 관련이 있는 부분인데, 이 부분에 대하여 간단하게 설명하고 넘어가도록 하겠습니다.
자유도는 자유롭게 선택될 수 있는 자료 수로, 온전히 해당 통계량에 대한 정보를 생성하는 데 사용되는 자료 수라고 했습니다. 만약 관찰치가 2개 밖에 없다면 회귀선은 무조건 그 두 점을 지나야 합니다. 그래야 직선이 만들어지기 때문입니다. 이 경우 두 선을 지나는 회귀선을 추정하기만 할 뿐, 그 회귀선을 평가할 자유도는 없습니다. 같은 관점으로 관찰치가 3개라면 2개는 위와 같은 논리로 사용되고 회귀선의 정도를 평가하는 데에는 하나의 관찰치만을 사용하게 될 겁니다. 즉, 기본적으로 회귀선은 2개의 자유도를 차지합니다. 그렇기 때문에 회귀선 정도 평가를 위해 사용되는 $SSE$는 $n-2$의 자유도를 갖게 됩니다.
설명 예측자가 2개 이상인 다중회귀분석에도 그대로 적용됩니다. 예를 들어 2개인 경우 회귀식은 3차원의 좌표공간에서 어떤 평평한 면으로 표현할 수 있습니다. 이 면은 최소한 3개의 점이 있어야 형성될 수 있습니다. 그렇기 때문에 관찰치가 3개인 경우,적합된 회귀식을 무조건 그 세 점을 지나갈 것이며, 회귀식의 정도를 파악하고 싶다면 최소한 4개 이상의 관찰치가 필요합니다.(3개의 점만 있다면 회귀면은 모든 점을 지나갈테고 이는 회귀선 평가에 관해서 아무 의미가 없습니다.) 즉, 이 경우 회귀식은 3의 자유도를 차지합니다. 회귀식 평가를 위한 $SSE$는 n-3의 자유도를 갖게 됩니다.
이를 일반화 하면 SSE는 n-예측자 수-1 가 됩니다. 일반적으로 예측자 수를 k로 표현하니, n-k-1이라고 할 수 있습니다.
이와 같은 이유로 회귀선을 평가하는 데 사용되는 가설과 검정통계량은 다음과 같습니다.
$$
H_0 : 추정된 \ 회귀식은\ 유의하지\ 않다
$$
$$
H_1 : 추정된\ 회귀식은 \ 유의하다
$$
$$
F_0=\frac {SSR/df_R } { SSE/df_E} \sim F (df_R,df_E)
$$
$$
df_R=k \qquad df_E=n-k-1\
$$
$$
n:number\ of\ observations \qquad k:number\ of\ predictors
$$
만약 MSE에 비해 MSR이 상대적으로 큰 값을 가지고 있다면 $F_0$는 높은 값을 갖겠고, 이는 회귀식으로 설명할 수 있는 변동이 그렇지 않은 변동에 비해 크다는 것을 의미합니다. 이 경우 귀무가설을 기각합니다.
*$R^2$ 계산 *
회귀선이 전체 변동 중 설명하는 비중을 회귀선의 설명력, $R^2$라고 합니다.
$$
R^2 = \frac {SSR} {SST} = 1- \frac {SSE} { SST}
$$
이는 결정계수(coefficient of determination, $R^2$)라는 척도로 전체 변동중 회귀선에 의해 설명되는 변동이 차지하는 비중을 표현하는 값입니다. 0과 1 사이의 값을 가지며 '회귀식의 기여율' 이라는 관점으로 해석될 수 있습니다. 이 역시 위의 F검정과 같은 원리이며, 같은 방법으로 회귀선을 평가하는 척도입니다.
회귀모형 설정
회귀모형을 설정해보도록 하겠습니다. 여기서 $X$ 값은 주어진 값으로 취급하므로 오차항 $\epsilon$ 의 분포는 곧 반응값 $Y$의 분포입니다.
$$
Y_{i}=\beta_{0} +\beta_{1}x_{i}+\epsilon_{i}, \epsilon_{i} \sim iidN(0,\sigma^{2})
$$
분산분석에서와 같이 오차항 $\epsilon$에 대한 가정은 곧 회귀분석을 하기 위한 가정이고 $iid \ N$ 에 따라 독립성, 정규성, 등분산성 세 가지 성질을 요합니다.
이 세 가정은 오차항의 추정량인 잔차를 통해 진단되며 잔차가 관찰치에 따라 특정한 패턴을 보이거나 커졌다 작아졌다 하는 양상을 보인다면 독립성, 등분산성을 의심해보아야 하며 잔차의 히스토그램을 그려보거나 관련 검정을 통해 정규성을 만족하는지에 대해 확인해 보아야 합니다.
또한 실제 데이터를 기지고 추정한 회귀식은 다음과 같이 표현합니다.
$$
\hat Y_i = b_0 + b_1 X_i
$$
절편 $b_0$ 는 예측자가 0의 값을 가질 때의 반응 값을 의미하며 초기값을 나타냅니다. 기울기 $b_1$은 예측자가 가지고 있는 반응값에 대한 단위 당 영향도를 의미합니다. 기울기가 양의 값을 갖고 있다면 예측자가 증가할수록 반응 값 역시 증가할 것이며 음의 값을 갖는다면 예측자의 증가에 따라 반응 값은 감소할 것입니다. 또한 절댓값이 클수록 그 영향이 크다는 것을 의미합니다.
이 영향도 역시 유의한지 검정을 진행할 수 있습니다. 이를 회귀계수의 검정 혹은 회귀식의 기울기 검정이라고 합니다. 기울기 검정은 $t$분포를 이용하게 됩니다. 만약 정규성의 가정이 만족하면, 회귀계수는 $t$분포를 따르기 때문이죠. 회귀계수가가 0인가를 확인하는 검정은 해당 설명변수가 반응 값에 영향을 미치는지 아닌지를 확인 하는 것과 같습니다. 여러 설명변수가 포함된 모형에서도 진행할 수 있으며, 마찬가지로 각 변수의 독립적인 영향력을 평가하게 됩니다.
$$
H_0:\beta_1=0 \qquad 회귀계수는\ 0이다.
$$
$$
H_1:\beta_1\neq0\qquad 회귀계수는\ 0이\ 아니다.
$$
'통계 이론' 카테고리의 다른 글
다중 회귀분석(Multiple Regression) (0) | 2020.03.23 |
---|---|
회귀분석(R Code) (0) | 2020.03.23 |
상관분석 (R code) (0) | 2020.03.23 |
상관분석 (0) | 2020.03.23 |
분산분석(R Code) (0) | 2020.03.23 |