대응표본의 차이
대응표본 paired samples
- 두 집단의 자료를 쌍으로 묶을 수 있을 때 평균 차이가 유의한지 검정하는 방법
- 동일한 개체에 전후 측정
- 치료 전후의 환자의 증상 개선 정도
- 교육 프로그램 전후의 학생의 시험 점수 등
- 쌍으로 관찰된 경우
- 남편과 아내의 비교
- 쌍둥이 형제의 비교
- 같은 날짜의 두 지역의 온도 차이
- 두 집단의 자료를 쌍으로 묶어야 하기 때문에, 독립표본과는 달리 두 집단의 자료 갯수가 동일해야 함
대응표본 t-검정의 절차
- 각 쌍의 차이를 계산
- 귀무 가설(HO): 모든 쌍의 차이의 평균이 0이다
- 차이의 평균과 표준편차를 계산
- 통계량을 계산하여 t-분포에서 p-value를 계산 (자유도
- p-value < 유의 수준(보통 0.05)이면 귀무 가설을 기각 →
Python 대응표본 t-검정
cp = pd.read_excel('couple.xlsx')
pg.ttest(cp['husband'], cp['wife'], paired=True)
독립표본 t-검정과 대응표본 t-검정의 차이
- 독립표본 t-검정: 평균의 차이를 비교
- 대응표본 t-검정: 차이의 평균을 비교
- 평균의 차이와 차이의 평균 자체는 같음
- 표준편차가 다름 → 신뢰구간이 다름
- 예: [1, 2, 3] vs. [2, 3, 4]
- 독립표본일 경우: 평균의 차이 1, 표준편차 1
- 대응표본일 경우: [1, 1, 1]이 되어 차이의 평균 1, 표준편차 0
독립표본과 대응표본의 예시 (1)
-
데이터
import numpy as np
a = np.array([1, 2, 3, 4, 5])
b = np.array([3, 3, 4, 5, 6]) -
독립표본 t 검정(유의하지 않음)
pg.ttest(a, b)
-
독립표본일 경우 표준편차
np.std(np.concatenate([a, b]), ddof=1)
독립표본과 대응표본의 예시 (2)
-
대응표본 t 검정(유의함)
pg.ttest(a, b, paired=True)
-
대응표본일 경우 표준편차
np.std(b-a)
-
이면 표준편차 0이 되어 대응표본 t 검정에서 에러 발생
윌콕슨 부호순위 검정 Wilcoxon signed rank test
- 대응표본 t 검정에 대응하는 비모수 검정
- 데이터가 정규분포를 따르지 않고 표본 크기가 작아 정규성을 가정하기 어려운 경우
- 윌콕슨 부호순위 검정의 절차
- 귀무 가설(HO) 설정: 차이의 중간값
- 각 쌍의 차이를 계산하고, 차이의 절대값에 대해 순위를 매김
- 차이의 부호를 고려하여 순위를 부호가 있는 순위로 변환
- 부호가 있는 순위의 합계를 구해 검정 통계량 계산 → p-value를 계산
- p-value < 유의 수준(보통 0.05)이면 귀무 가설을 기각 → 차이의 중간값
pg.wilcoxon(cp['husband'], cp['wife'])