통계적 가설검정
통계적 가설 검정
- 통계적 가설 검정 (Statistical Hypothesis Testing)
- 관찰된 차이가 우연히 발생한 것인지, 아니면 통계적으로 의미 있는 차이인지를 확률적으로 판단하는 과정
- "두 공정 간에 차이가 없다"는 귀무가설(H₀)을 세우고, 이 가설이 틀렸다는 강력한 증거가 있는지를 데이터로 확인
- 귀(歸: 돌아가다), 무(無: 없음) → 무로 돌아가다, 즉 없어질 가설(nullify: 무효화하다, 취소하다)
- 귀무가설을 기각함으로써 원래 주장하고자 하던 가설(대립가설)을 채택
- 귀무가설을 세우는 이유
- 가설이 있어야 확률을 계산할 수 있음
- 예: 앞뒷면이 나올 확률이 같다고 가정해야 10번 던졌을 때 앞면이 10번 나올 확률을 계산할 수 있음
두 집단의 평균 비교
- 두 집단의 평균을 비교하려는 경우, 독립표본 t-검정을 사용
- 귀무가설: "두 집단의 평균이 같다()"
의 신뢰구간을 계산(: 대조군 평균, : 실험군 평균)
avante = df.query('model == "Avante"') # df 중에서 model이 Avante인 건만
k3 = df.query('model == "K3"') # df의 중에서 model이 K3인 건만
pg.ttest(avante.price, k3.price)
- Avante 집단이 K3 집단에 비해 평균 가격이 -152 - -8만원 (→ 평균이 더 낮음)
p-value
- 일단 귀무가설이 참이라고 가정
- 현재 관찰된 차이 또는 그 이상이 발생할 확률을 계산(p-value)
- p < 유의수준(0.05) → 귀무가설이 신뢰구간을 벗어남 → 귀무가설 기각 → 대립가설 채택
- "두 집단의 평균에 통계적으로 유의한 차이가 있다"
- p > 유의수준(0.05) → 귀무가설이 신뢰구간을 벗어남 → 귀무가설 기각 못함 → 결론 유보
- "두 집단의 평균에 통계적으로 유의한 차이가 없다"
통계적 유의함 (Statistical Significance)
- 의미: 통계적 가설검정에서 귀무가설 기각하는 경우 ("통계적으로 유의하다").
- 해석: 관찰된 관계/차이가 단순 우연(표집 오차)만으로 설명되기 어렵다는 의미. (표본 크기 고려 시, 뭔가 의미 있는 차이가 있을 가능성 시사)
- 주의: 통계적 유의함 ≠ 현실적 유의함 (Practical Significance)
- 통계적 유의함은 표본 크기 영향 받음. 표본 크 매우 크면, 현실적으로 아주 작은 차이도 통계적으로 유의하게 나옴.
- 현실적 유의함은 결과의 실제 중요성, 의미, 가치에 대한 주관적 판단 필요.
- 예: 평균 수명 하루 연장 치료제 (통계적 유의 O), 단 가격 10억원 (현실적 유의 X).