다중회귀분석
다중회귀분석
- 독립변수가 2개 이상인 회귀분석
- Python에서는 관계식에서 +로 변수를 구분
price ~ mileage + year
- 더하라는 뜻이 아님에 주의
통계적 통제
- 독립변수 x와 상관관계가 높은 요소 z가 존재할 경우
- z가 종속변수 y에 미치는 영향이 x의 기울기에 간접 반영될 수 있음
- 실험적 통제: 데이터에서 z를 일정하게 유지하여, z의 영향을 제거
- 통계적 통제:
- z를 모형에 독립변수로 함께 포함하여, x의 기울기에 z의 영향이 반영되지 않도록 함
- 실험적 통제와 달리 이론적, 통계적 가정에 바탕을 두므로 정확하지 않을 수 있음
통계적 통제
price ~ mileage
로 분석했을 때
- 주행거리(mileage) 1Km 당 가격이 -0.0052 변화
- 주행거리가 긴 차는 연식이 오래된 경우가 많으므로 연식에 의한 가격 변동이 계수에 포함됨
price ~ mileage + year
로 분석했을 때
- 연식(year)을 통계적으로 통제했을 때, 주행거리 1Km 당 가격이 -0.0023 변화
- 연식에 따른 변동을 계수에서 배제
표준화 standardization
- 다중회귀분석에서 독립변수는 단위가 다르므로 종속변수에 대한 영향력을 비교하기 어려움
- 표준화를 하면 평균 = 0, 표준편차 = 1이 됨
표준편차X−평균
- 표준화를 통해 변수의 단위를 제거하여 상대적인 영향력을 비교할 수 있음
- 범주형 독립변수는 표준화 하지 않음
scale
함수를 이용하여 표준화를 할 수 있음
- 예: 연속 독립변수 x1, x2를 이용하여 회귀분석을 할 경우
price ~ scale(mileage) + scale(year)