범주형 독립변수
독립변수가 범주형인 경우
- 문제: 범주형 변수(예: 'Avante', 'K3')에는 기울기 직접 곱할 수 없음.
- 해결: 연속 변수(숫자) 형태로 변환하여 모형 투입 필요.
- 방법: 여러 방법 중 더미 코딩(Dummy Coding) 가장 많이 사용됨.
- 자동 처리: Jamovi, R, Python(
statsmodels,scikit-learn등)은 대부분 자동 더미 코딩 지원.
더미 코딩 (Dummy Coding)
- 원리: 범주가 개인 변수를 **개의 더미 변수(dummy variable)**로 변환.
- 기준 범주 (Reference Category): 범주 중 하나를 기준으로 지정 (보통 첫번째 범주. 변경 가능).
- 더미 변수 생성: 기준 제외한 나머지 각 범주별로 더미 변수 1개씩 생성.
- 더미 변수 값: 해당 범주면 1, 아니면 0.
- 기울기 해석: 더미 변수의 회귀계수 = 해당 범주의 종속변수 평균값 - 기준 범주의 종속변수 평균값 차이.
범주가 2개인 경우 (예: model - Avante, K3)
- ABC 순
Avante기준 설정됨. K3에 대한 더미 변수 1개(model[T.K3]) 생성.Avante면model[T.K3] = 0K3면model[T.K3] = 1
- Python 결과 (
ols('price ~ model', df).fit().summary()):Intercept: 기준(Avante)의 평균price(예: 833).model[T.K3]:K3의 평균price-Avante의 평균price차이 (예: 80).- K3 예상 가격: Intercept + model[T.K3] 계수 = 833 + 80 = 913.
더미 변수 이름 확인
statsmodels결과표 이름:원본변수명[T.범주명]형식.- 범주 목록 확인:
df.model.unique()
퀴즈
사용자 정보 입력
퀴즈를 시작하기 전에 이름과 소속을 입력해주세요.