Skip to main content

다중 회귀분석

다중 회귀분석 (Multiple Regression)

  • 독립변수가 2개 이상인 회귀분석.
  • Python 관계식: + 기호로 독립변수 구분/추가.
    price ~ mileage + year
    • mileageyear 둘 다를 독립변수로 사용.

통계적 통제 (Statistical Control)

  • 필요성: 독립변수 x 외에 종속변수 yx 와 모두 관련된 혼란변수(confounder) z 존재 시, x의 순수 영향력 파악 어려움 (z 영향이 x 효과에 섞여 반영).
  • 실험적 통제: 실험 설계 통해 z 값 일정하게 유지하여 영향 제거.
  • 통계적 통제: z를 회귀 모형에 독립변수로 함께 포함. → x의 회귀계수(wxw_x)에서 z의 간접 영향 분리/제거 효과. x고유한 영향력 추정 가능.

표준화 (Standardization) in Multiple Regression

  • 필요성: 다중회귀분석에서 독립변수들 단위 다르면, 회귀계수 크기만으로 영향력 직접 비교 어려움.
  • 표준화: 각 변수를 (값 - 평균) / 표준편차 로 변환 (Z-점수).
Z=XμσZ = \frac{X - \mu}{\sigma}
  • 효과: 표준화된 변수는 평균=0, 표준편차=1 됨. 단위 제거되어 계수 크기로 상대적 영향력 비교 가능해짐.

관계식에서 표준화하기 (Python)

  • statsmodels 관계식 내 scale() 함수 사용 가능.
    # mileage와 year를 각각 표준화하여 독립변수로 사용
    ols("price ~ scale(mileage) + scale(year)", data=df).fit()
  • 주의: 범주형 독립변수는 표준화하지 않음.

퀴즈

사용자 정보 입력
퀴즈를 시작하기 전에 이름과 소속을 입력해주세요.

Q&A