· 결정계수회귀분석에서 간편하면서도 유용하게 회귀식을 요약하는 지표 중 하나로 사용하는 계수가 있다. 이를 R**2로 표현하는 결정계수라고 한다. R**2 = SSR / SST, R**2이 클수록 자료를 잘 설명한다고 할 수 있다. 하지만 주의해야만 한다. 결정계수는 모델의 정당성을 모두 설명/해결하지는 못한다. 즉, 결정계수란 자료의 총 변동 중에서 회귀에 의해 설명되는 변동의 비율을 나타내며, 0 <= R**2 <= 1의 범위를 갖는다. <결정계수의 성질> (1) R**2 = 1 이란 회귀 직선 적합 후 모든 잔차가 0인 경우로 모든 자료가 회귀직선과 일치할 때를 나타낸다. (2) R**2 ≒ 0일 때는 회귀직선이 자료의 경향을 설명하는데 아무런 역할을 하지 않아 회귀가 의미가 없음을 나타낸다. (3) 결정계수는 회귀분석이 얼마나 유용한가를 요약하는데 유용하며, 값이 클수록 회귀가 적합하다고 할 수 있다. (4) 단 중회귀(설명변수가 2개 이상)에서는, 설명하는데 관련이 없는 설명변수가 추가될 때마다 결정계수가 증가하는 문제가 있어 무조건 큰 결정계수를 선호하는 것은 조심해야 한다. (5) 결정계수는 표본으로 얻을 때 모집단 자료에서 얻은 것보다 커지는 경향이 있다. (6) 4~5 문제를 해결하기 위해 보안하거나 개선된 수정 결정계수는 다음과 같다. (7) 결정계수 R**2은 표본 상관계수를 제곱하여도 얻을 수 있다. <예제>
summary(reg)의 결과 Call: Residuals: Coefficients: Residual standard error: 5.125 on 8 degrees of freedom 결정계수는 0.9859, 수정된 결정계수는 0.9841 ANOVA(reg)의 결과 Analysis of Variance Table Response: y · 분산분석회귀직선에 대한 기울기의 검정, 그 밖에 회귀의 유용성(MSE의 크기, 회귀직선과 자료의 적합성 등)을 살피기 좋은 방법이 확률변수 yi들이 갖는 변동을 탐색하는 것이다. · 제곱합 분할총제곱합(또는 총변동, Total Sum of Squares, SST) 잔차제곱합(Residual Sum of Squares, SSE) 회귀제곱합(Regression Sum of squares, SSR) · 자유도의 배분자유도 : 통계량을 구하기 위한 요소 중 자료값에 영향을 받지 않고 독립적으로 변동 가능한 요소의 개수 · 분산분석표<Cochran의 정리> |