모형 선택
과대적합 overfitting
- 최소제곱법은 잔차분산이 가장 작은 계수를 추정
- 주어진 표본에 가장 맞는 계수를 찾게 됨
- 표집 오차가 존재하기 때문에, 주어진 표본에 지나치게 맞는 계수를 추정하면 모집단의 계수와 다를 수 있음
- (교재 그림) 초록색 선이 실제 데이터 패턴
- 빨간 선은 사용한 모형으로 추정한 패턴
- 0차, 1차 함수는 과소적합(underfitting)
- 9차 함수는 과대적합(overfitting)
- 잔차 = 0이지만(모든 선이 점을 지남) 실제 데이터 패턴과는 거리가 멂
독립변수의 개수와 과적합
- 최소제곱법은 잔차분산이 작아지는 방향으로 계수를 추정
- 종속변수와 아무 관련이 없는 독립변수를 추가하더라도 잔차분산이 커지는 경우는 없음
- 모집단에서는 아무 관련이 없어도 표본에서는 약간의 관계라도 있을 수 있으므로 잔차분산은 작아지게 됨
- 독립변수가 많으면 많을 수록 잔차분산은 무조건 작아짐(R제곱은 높아짐)