Skip to main content

회귀분석

선형 모형

  • 요인과 반응의 관계를 직선 형태(선형)로 모형화
y=wx+b+ϵy = wx + b + \epsilon
  • yy: 종속 변수
  • xx: 독립 변수
  • ww: 가중치 또는 기울기
  • bb: 절편(x=0x=0일 때 yy의 예측치)
  • ϵ\epsilon: 예측 오차

실습 데이터 열기

import pandas as pd # pandas 모듈을 불러들임(별칭: pd)
df = pd.read_excel('strength_data.xlsx') # strength_data.xlsx 파일 내용을 df 변수에 할당
df # df 변수 내용 보기

통상 최소 제곱법(Ordinary Least Squares)

  • 모형의 계수를 추정하는 방법 중에 하나
  • 오차의 제곱합을 최소화하는 계수를 찾음
from statsmodels.formula.api import ols
FORMULA = 'strength ~ group' # 회귀모형의 관계식
DATA = # 분석할 데이터
m = ols(FORMULA, data=DATA).fit() # 모형 생성
m.summary() # 모형 요약 출력
  • group[T.Old]의 coef가 계수 추정치(Old의 평균 - New의 평균)

결정계수(R 제곱)

  • 모형 요약 우측 상단에 R-squared로 출력
  • 회귀모형의 설명력을 나타내는 지표
  • 0에서 1 사이의 값을 가지며, 1에 가까울수록 모형이 데이터를 잘 설명함
  • 계산 방법: 모형의 설명된 변동성 / 반응 변수의 총 변동성 = 1 - 오차의 변동성 / 반응 변수의 총 변동성
  • 오차가 0이면 결정계수는 1이 됨
  • "모형이 반응 변수의 변동성에서 (결정계수 * 100)%를 설명한다"라고 읽음

표준 오차

  • 동일한 조건에서 동일한 실험을 하더라도 각 실험의 결과는 다를 수 있음(표집 오차)
  • 원인:
    • 실험 단위의 자연적 변동성
    • 측정 오차
    • 실험 설계의 불완전성
  • 이러한 변동성을 고려하여 추정치의 분산을 계산함
  • 표준 오차(standard error, SE): 추정치의 분산을 나타내는 지표(=표집 오차의 전반적 크기를 나타내는 지표)

통계적 가설 검정

  • 왜 가설 검정이 필요한가?
    • 두 조건(A, B)으로 실험한 표본의 평균값이 다르게 나왔다고 가정
      • A 공정 평균 강도: 55.2 kgf/mm²
      • B 공정 평균 강도: 56.1 kgf/mm²
    • 이 차이가 정말 두 공정의 성능 차이 때문일까?
    • 아니면 단순히 우연(표집 오차) 때문에 발생한 차이일까?
  • 통계적 가설 검정 (Statistical Hypothesis Testing)
    • 관찰된 차이가 우연히 발생한 것인지, 아니면 통계적으로 의미 있는 차이인지를 확률적으로 판단하는 과정
    • "두 공정 간에 차이가 없다"는 귀무가설(H₀)을 세우고, 이 가설이 틀렸다는 강력한 증거가 있는지를 데이터로 확인
  • 귀무가설을 세우는 이유
    • 가설이 있어야 확률을 계산할 수 있음
    • 예: 앞뒷면이 나올 확률이 같다고 가정해야 10번 던졌을 때 앞면이 10번 나올 확률을 계산할 수 있음

회귀계수의 통계적 가설 검정

  • 실제로 계수가 0이더라도(즉, 해당 요인이 실제로는 반응과 무관하더라도) 계수가 0이 아닌 것으로 추정될 가능성이 존재함
  • t: 회귀계수를 표준 오차로 나눈 값으로, 스튜던트의 t 분포를 따름
  • 실제로는 계수가 0이라고 가정하고(귀무가설), 추정된 계수 또는 그 이상이 관측될 확률(p)을 계산함
  • p 값이 유의수준(예: 0.05)보다 작으면 귀무가설을 기각하고, 해당 계수가 통계적으로 유의하다고 판단함
  • p 값이 유의수준보다 크면 귀무가설을 기각하지 않음
    • 해당 요인이 반응에 통계적으로 유의미한 영향을 미치지 않는다고 판단
    • 단, 통계적으로 유의하지 않다고 해서 반드시 해당 요인이 반응에 영향을 미치지 않는 것은 아님
    • 영향력이 작은 요인은 실험 횟수가 부족할 경우 통계적으로 유의하지 않을 수 있음

퀴즈