변수의 변형

로그 함수 변환

데이터 분포의 비대칭 정도.
- Negative Skew: 왼쪽 꼬리 김 (- 방향 치우침). 평균 < 중간값 < 최빈값.
- Positive Skew: 오른쪽 꼬리 김 (+ 방향 치우침). 최빈값 < 중간값 < 평균.
값 해석 (절대값 기준):
- 0: 좌우 대칭.
- |0.5|: 중간 정도 치우침.
- |1|: 극단적 치우침.

회귀분석

import numpy as np
from statsmodels.formula.api import ols
m = ols('price ~ np.log(mileage)', data=df).fit()

산점도 (x축도 로그 변환)

import matplotlib.pyplot as plt
plt.plot(np.log(df.mileage), df.price, 'o') # 'o'는 점 모양

방법: 독립변수 실제 값 대신 순위(rank) 사용.
관계식: y ~ x.rank()
논리: 스피어만 상관계수와 유사. 변수 간 단조적 관계 파악.
장점:
- 표준화처럼 단위 다른 변수 비교 용이.
- 로그 변환처럼 한쪽으로 치우친 데이터 영향 완화. 비선형성 일부 처리.
단점:
- 새로운 데이터 예측 시, 기존 데이터 기준 순위 다시 매겨야 함 (번거로움).
- 관찰 범위 벗어난 값 예측 불가 (순위 기반이므로).

사용자 정보 입력

퀴즈를 시작하기 전에 이름과 소속을 입력해주세요.

이름

별명

소속