Skip to main content

회귀분석

선형 모형

  • 요인과 반응의 관계를 직선 형태(선형)로 모형화
y=wx+b+ϵy = wx + b + \epsilon
  • yy: 종속 변수
  • xx: 독립 변수
  • ww: 가중치 또는 기울기
  • bb: 절편(x=0x=0일 때 yy의 예측치)
  • ϵ\epsilon: 예측 오차

실습 데이터 열기

import pandas as pd # pandas 모듈을 불러들임(별칭: pd)
df = pd.read_excel('strength_data.xlsx') # strength_data.xlsx 파일 내용을 df 변수에 할당
df # df 변수 내용 보기

통상 최소 제곱법(Ordinary Least Squares)

  • 모형의 계수를 추정하는 방법 중에 하나
  • 오차의 제곱합을 최소화하는 계수를 찾음
from statsmodels.formula.api import ols
FORMULA = 'strength ~ group' # 회귀모형의 관계식
DATA = df # 분석할 데이터
m = ols(FORMULA, data=DATA).fit() # 모형 생성
m.summary() # 모형 요약 출력
  • group[T.Old]의 coef가 계수 추정치(Old의 평균 - New의 평균)

결정계수(R 제곱)

  • 모형 요약 우측 상단에 R-squared로 출력
  • 회귀모형의 설명력을 나타내는 지표
  • 0에서 1 사이의 값을 가지며, 1에 가까울수록 모형이 데이터를 잘 설명함
  • 계산 방법: 모형의 설명된 변동성 / 반응 변수의 총 변동성 = 1 - 오차의 변동성 / 반응 변수의 총 변동성
  • 오차가 0이면 결정계수는 1이 됨
  • "모형이 반응 변수의 변동성에서 (결정계수 * 100)%를 설명한다"라고 읽음

퀴즈