Skip to main content

집단 비교

집단 비교 통계 처리 순서도

  • 종속변수 종류 (연속형 / 범주형), 집단 수 (2개 / 3개 이상) 따라 분석 방법 선택.
    • 연속형 종속변수:
      • 2 집단 비교 → 독립표본 t 검정
      • 3 집단 이상 비교 → 분산 분석 (ANOVA) → (유의하면) 사후 분석
    • 범주형 종속변수:카이제곱 검정

독립표본 t-검정 (Independent Samples t-test)

  • 목적: 독립된 두 집단평균 차이 비교 검정.
  • 표기: 집단1 평균(X̄₁), 집단2 평균(X̄₂).
  • 활용: 두 집단 모집단 정규분포 따르거나, 각 집단 크기 충분히 클 때 (n > 30) t-분포 이용하여 평균 차이(X̄₁ - X̄₂) 신뢰구간 계산 및 가설 검정.
  • 귀무가설: 두 집단 평균 같다 (μ₁ = μ₂) 또는 평균 차이 0 (μ₁ - μ₂ = 0).

독립표본 t 검정 순서도

  1. 귀무가설: "두 집단 평균 같다".
  2. p-value < 유의수준 (0.05) 인가?
    • Yes: "통계적으로 유의한 차이 있다" = "두 집단 평균 다르다". 귀무가설 기각.
    • No: "통계적으로 유의한 차이 없다" = 결론 유보. 귀무가설 기각 실패.

Python에서 독립표본 t-검정

import pingouin as pg

# 각 그룹 데이터 분리
avante = df.price[df.model == 'Avante']
k3 = df.price[df.model == 'K3']

# t-검정 수행 (Avante 그룹 vs K3 그룹)
pg.ttest(avante, k3, confidence=0.95)
  • 결과 해석:
    • p-val: 0.05보다 작으면 귀무가설(두 평균 같다) 기각.
    • CI95%: Avante 평균 - K3 평균 차이에 대한 95% 신뢰구간. 이 구간에 0 포함 안 되면 p < 0.05 와 일치.
    • 기타: T(검정통계량), dof(자유도), cohen-d(효과크기), BF10(베이즈요인), power(검정력).

맨-휘트니 U 검정 (Mann-Whitney U test)

독립표본 t 검정에 대응하는 비모수 검정 방법

U 계산

U=i=1nj=1mS(Xi,Yj)U = \sum_{i=1}^{n} \sum_{j=1}^{m} S(X_i, Y_j)

여기서,

S(X,Y)={1,if X>Y12,if X=Y0,if X<YS(X, Y) = \begin{cases} 1, & \text{if } X > Y \\ \frac{1}{2}, & \text{if } X = Y \\ 0, & \text{if } X < Y \end{cases}

귀무가설: U=n×m2U = \frac{n \times m}{2}

  • 귀무 가설의 의미
    • X와 Y 두 집단에서 아무거나 하나씩 골랐을 때, X=Y이든지 아니면, 50%의 확률로 X>Y이고 50%의 확률로 X<Y
    • 즉, 특별히 어느 한쪽이 더 크지 않다는 의미
  • 사용하는 경우
    • 표본의 크기가 작을 때 (예: 20~30개)
    • 표본의 분포가 정규분포에서 크게 벗어날 때
    • 순위 데이터에 대해 검정하고자 할 때
  • 윌콕슨 순위합 검정(Wilcoxon rank-sum test)이라는 방법과 동일
  • 윌콕슨 부호순위 검정과는 다름

Python에서 맨-휘트니 U 검정

avante = df.price[df.model == 'Avante']
k3 = df.price[df.model == 'K3']
pg.mwu(avante, k3)

p < 0.05이므로 귀무가설(두 집단의 모집단이 같다)을 기각

퀴즈