Skip to main content

대응표본의 차이

대응표본 paired samples

  • 두 집단의 자료를 쌍으로 묶을 수 있을 때 평균 차이가 유의한지 검정하는 방법
  • 동일한 개체에 전후 측정
    • 치료 전후의 환자의 증상 개선 정도
    • 교육 프로그램 전후의 학생의 시험 점수 등
  • 쌍으로 관찰된 경우
    • 남편과 아내의 비교
    • 쌍둥이 형제의 비교
    • 같은 날짜의 두 지역의 온도 차이
  • 두 집단의 자료를 쌍으로 묶어야 하기 때문에, 독립표본과는 달리 두 집단의 자료 갯수가 동일해야 함

대응표본 t-검정의 절차

  • 각 쌍의 차이를 계산 (X1X2)(X_{1}-X_{2})
  • 귀무 가설(HO): 모든 쌍의 차이의 평균이 0이다 (E[X1X2]=0)(E[X_{1}-X_{2}]=0)
  • 차이의 평균과 표준편차를 계산
  • 통계량을 계산하여 t-분포에서 p-value를 계산 (자유도 (df)=n1)(df)=n-1)
  • p-value < 유의 수준(보통 0.05)이면 귀무 가설을 기각 → E[X1X2]0E[X_{1}-X_{2}]\ne 0

Python 대응표본 t-검정

cp = pd.read_excel('couple.xlsx')
pg.ttest(cp['husband'], cp['wife'], paired=True)

독립표본 t-검정과 대응표본 t-검정의 차이

  • 독립표본 t-검정: 평균의 차이를 비교
  • 대응표본 t-검정: 차이의 평균을 비교
  • 평균의 차이와 차이의 평균 자체는 같음
  • 표준편차가 다름 → 신뢰구간이 다름
  • 예: [1, 2, 3] vs. [2, 3, 4]
    • 독립표본일 경우: 평균의 차이 1, 표준편차 1
    • 대응표본일 경우: [1, 1, 1]이 되어 차이의 평균 1, 표준편차 0

독립표본과 대응표본의 예시 (1)

  • 데이터

    import numpy as np

    a = np.array([1, 2, 3, 4, 5])
    b = np.array([3, 3, 4, 5, 6])
  • 독립표본 t 검정(유의하지 않음)

    pg.ttest(a, b)
  • 독립표본일 경우 표준편차

    np.std(np.concatenate([a, b]), ddof=1)

독립표본과 대응표본의 예시 (2)

  • 대응표본 t 검정(유의함)

    pg.ttest(a, b, paired=True)
  • 대응표본일 경우 표준편차

    np.std(b-a)
  • b=[2,3,4,5,6]b=[2, 3, 4, 5, 6]이면 표준편차 0이 되어 대응표본 t 검정에서 에러 발생

윌콕슨 부호순위 검정 Wilcoxon signed rank test

  • 대응표본 t 검정에 대응하는 비모수 검정
  • 데이터가 정규분포를 따르지 않고 표본 크기가 작아 정규성을 가정하기 어려운 경우
  • 윌콕슨 부호순위 검정의 절차
    • 귀무 가설(HO) 설정: 차이의 중간값 =0=0
    • 각 쌍의 차이를 계산하고, 차이의 절대값에 대해 순위를 매김
    • 차이의 부호를 고려하여 순위를 부호가 있는 순위로 변환
    • 부호가 있는 순위의 합계를 구해 검정 통계량 계산 → p-value를 계산
    • p-value < 유의 수준(보통 0.05)이면 귀무 가설을 기각 → 차이의 중간값 0\ne 0
pg.wilcoxon(cp['husband'], cp['wife'])

퀴즈