집단 비교
집단 비교 통계 처리 순서도
- 종속변수 종류 (연속형 / 범주형), 집단 수 (2개 / 3개 이상) 따라 분석 방법 선택.
- 연속형 종속변수:
- 2 집단 비교 → 독립표본 t 검정
- 3 집단 이상 비교 → 분산 분석 (ANOVA) → (유의하면) 사후 분석
- 범주형 종속변수: → 카이제곱 검정
- 연속형 종속변수:
독립표본 t-검정 (Independent Samples t-test)
- 목적: 독립된 두 집단의 평균 차이 비교 검정.
- 표기: 집단1 평균(X̄₁), 집단2 평균(X̄₂).
- 활용: 두 집단 모집단 정규분포 따르거나, 각 집단 크기 충분히 클 때 (n > 30) t-분포 이용하여 평균 차이(X̄₁ - X̄₂) 신뢰구간 계산 및 가설 검정.
- 귀무가설: 두 집단 평균 같다 (μ₁ = μ₂) 또는 평균 차이 0 (μ₁ - μ₂ = 0).
독립표본 t 검정 순서도
- 귀무가설: "두 집단 평균 같다".
- p-value < 유의수준 (0.05) 인가?
- Yes: "통계적으로 유의한 차이 있다" = "두 집단 평균 다르다". 귀무가설 기각.
- No: "통계적으로 유의한 차이 없다" = 결론 유보. 귀무가설 기각 실패.
Python에서 독립표본 t-검정
import pingouin as pg
# 각 그룹 데이터 분리
avante = df.price[df.model == 'Avante']
k3 = df.price[df.model == 'K3']
# t-검정 수행 (Avante 그룹 vs K3 그룹)
pg.ttest(avante, k3, confidence=0.95)
- 결과 해석:
p-val
: 0.05보다 작으면 귀무가설(두 평균 같다) 기각.CI95%
: Avante 평균 - K3 평균 차이에 대한 95% 신뢰구간. 이 구간에 0 포함 안 되면 p < 0.05 와 일치.- 기타:
T
(검정통계량),dof
(자유도),cohen-d
(효과크기),BF10
(베이즈요인),power
(검정력).
맨-휘트니 U 검정 (Mann-Whitney U test)
독립표본 t 검정에 대응하는 비모수 검정 방법
U 계산
여기서,
귀무가설:
- 귀무 가설의 의미
- X와 Y 두 집단에서 아무거나 하나씩 골랐을 때, X=Y이든지 아니면, 50%의 확률로 X>Y이고 50%의 확률로 X<Y
- 즉, 특별히 어느 한쪽이 더 크지 않다는 의미
- 사용하는 경우
- 표본의 크기가 작을 때 (예: 20~30개)
- 표본의 분포가 정규분포에서 크게 벗어날 때
- 순위 데이터에 대해 검정하고자 할 때
- 윌콕슨 순위합 검정(Wilcoxon rank-sum test)이라는 방법과 동일
- 윌콕슨 부호순위 검정과는 다름
Python에서 맨-휘트니 U 검정
avante = df.price[df.model == 'Avante']
k3 = df.price[df.model == 'K3']
pg.mwu(avante, k3)
p < 0.05이므로 귀무가설(두 집단의 모집단이 같다)을 기각