Skip to main content

대응표본의 차이

대응표본 paired samples

두 집단의 자료를 쌍으로 묶을 수 있을 때 평균 차이가 유의한지 검정하는 방법
동일한 개체에 전후 측정
- 치료 전후의 환자의 증상 개선 정도
- 교육 프로그램 전후의 학생의 시험 점수 등
쌍으로 관찰된 경우
- 남편과 아내의 비교
- 쌍둥이 형제의 비교
- 같은 날짜의 두 지역의 온도 차이
두 집단의 자료를 쌍으로 묶어야 하기 때문에, 독립표본과는 달리 두 집단의 자료 갯수가 동일해야 함

대응표본 t-검정의 절차

각 쌍의 차이를 계산 $(X_{1}-X_{2})$
귀무 가설(HO): 모든 쌍의 차이의 평균이 0이다 $(E[X_{1}-X_{2}]=0)$
차이의 평균과 표준편차를 계산
통계량을 계산하여 t-분포에서 p-value를 계산 (자유도 $(df)=n-1)$
p-value < 유의 수준(보통 0.05)이면 귀무 가설을 기각 → $E[X_{1}-X_{2}]\ne 0$

Python 대응표본 t-검정

cp = pd.read_excel('couple.xlsx')
pg.ttest(cp['husband'], cp['wife'], paired=True)

독립표본 t-검정과 대응표본 t-검정의 차이

독립표본 t-검정: 평균의 차이를 비교
대응표본 t-검정: 차이의 평균을 비교
평균의 차이와 차이의 평균 자체는 같음
표준편차가 다름 → 신뢰구간이 다름
예: [1, 2, 3] vs. [2, 3, 4]
- 독립표본일 경우: 평균의 차이 1, 표준편차 1
- 대응표본일 경우: [1, 1, 1]이 되어 차이의 평균 1, 표준편차 0

독립표본과 대응표본의 예시 (1)

데이터

import numpy as np

a = np.array([1, 2, 3, 4, 5])
b = np.array([3, 3, 4, 5, 6])

독립표본 t 검정(유의하지 않음)
```
pg.ttest(a, b)
```
독립표본일 경우 표준편차
```
np.std(np.concatenate([a, b]), ddof=1)
```

독립표본과 대응표본의 예시 (2)

대응표본 t 검정(유의함)
```
pg.ttest(a, b, paired=True)
```
대응표본일 경우 표준편차
```
np.std(b-a)
```
$b=[2, 3, 4, 5, 6]$ 이면 표준편차 0이 되어 대응표본 t 검정에서 에러 발생

윌콕슨 부호순위 검정 Wilcoxon signed rank test

대응표본 t 검정에 대응하는 비모수 검정
데이터가 정규분포를 따르지 않고 표본 크기가 작아 정규성을 가정하기 어려운 경우
윌콕슨 부호순위 검정의 절차
- 귀무 가설(HO) 설정: 차이의 중간값 $=0$
- 각 쌍의 차이를 계산하고, 차이의 절대값에 대해 순위를 매김
- 차이의 부호를 고려하여 순위를 부호가 있는 순위로 변환
- 부호가 있는 순위의 합계를 구해 검정 통계량 계산 → p-value를 계산
- p-value < 유의 수준(보통 0.05)이면 귀무 가설을 기각 → 차이의 중간값 $\ne 0$

pg.wilcoxon(cp['husband'], cp['wife'])

퀴즈

대응표본 paired samples
대응표본 t-검정의 절차
Python 대응표본 t-검정
독립표본 t-검정과 대응표본 t-검정의 차이
독립표본과 대응표본의 예시 (1)
독립표본과 대응표본의 예시 (2)
윌콕슨 부호순위 검정 Wilcoxon signed rank test
퀴즈