교차 검증

교차 검증 cross validation

데이터를 훈련 데이터와 테스트 데이터로 분할
모형을 훈련 데이터에 적합시켜, 테스트 데이터를 예측
LpO CV (Leave-p-out): p개를 제외한 모든 사례로 추정에 사용
- p개는 가능한 모든 방법으로 조합
- 조합이 지나치게 많아 비현실적
LOOCV (Leave-one-out): p = 1인 경우. 데이터가 N개이면 N번 검증
k-fold: 데이터를 크게 k개의 셋으로 나눔. 한 셋 씩 테스트셋으로 사용. k번 교차검증
holdout: 데이터를 훈련 셋과 테스트 셋으로 한 번만 나누어 1회 교차 검증

훈련 오차	테스트 오차	상태	조치
높음	높음	과소적합 (Underfitting)	모형 복잡하게 수정
낮음	낮음	적절	바람직
낮음	높음	과적합 (Overfitting)	모형 단순하게 수정

from sklearn.model_selection import train_test_split

train_df, test_df = train_test_split(
    df, # 원자료
    test_size=0.2, # 테스트 데이터의 비율(0.2 = 20%)
    random_state=42) # 난수 생성의 seed를을 고정(동일한 분할을 위해)

m = ols('price ~ year', train_df).fit()

y_pred = m.predict(test_df)

from sklearn.metrics import mean_squared_error
mean_squared_error(test_df.price, y_pred)

m = varsel.forward_selection_with_cv(
    'price ~ year + mileage + model + my_car_damage + other_car_damage',
    train_df, test_df)
m.summary()

m = varsel.backward_selection_with_cv(
    'price ~ year + mileage + model + my_car_damage + other_car_damage',
    train_df, test_df)
m.summary()