통계적 가설검정 (1)
기본 개념
- 개발: 칼 피어슨, 로널드 피셔 등 초기 통계학자들이 개발한 절차.
- 차이점: 일반 과학 가설 검정은 특정 가설 입증 (실증주의) 목표. 통계적 가설검정은 반증주의 기반 → 귀무가설(반대 가설) 배제 목표.
- 실증주의 vs. 반증주의:
- 실증주의: 이론 지지하는 경험적 근거 많은 이론이 좋은 이론.
- 반증주의: 반증 가능하지만, 아직 반증되지 않은 이론이 좋은 이론.
- 주의: 이름 때문에 방법 혼동 쉬움. 실제로 통계 사용하는 분야 과학자들도 가장 혼동하는 개념 중 하나.
통계적 가설 검정 논리
- 귀무가설 기각 논리 (대우 명제 활용):
A → B
와not B → not A
는 동치.- 귀무가설(A) 참 → 현재 결과(B) 나올 확률 높음.
- 현재 결과(not B) 나올 확률 낮음 → 귀무가설(not A) 거짓일 가능성 높음.
- 귀무가설 채택(X) 논리 (피셔의 반증주의 반영):
A → B
가 성립해도,B → A
는 반드시 성립 안 함.- 귀무가설(A) 참 → 현재 결과(B) 나올 확률 높음.
- 현재 결과(B) 나올 확률 높다 해도 → 귀무가설(A) 참이라고 단정할 수 없음.
- 따라서 귀무가설 기각 못하면, "채택"이 아닌 "기각 실패" 또는 "판단 유보".
통계적 가설 검정 순서도
- 귀무가설 수립.
- 데이터 분석 및 검정 통계량, p-value 계산.
- p-value < 유의수준 (α, 보통 0.05) 인가?
- Yes: 귀무가설 기각, 대립가설 채택. → 효과 크기 등 바탕으로 현실적 유의함 추가 판단.
- No: 귀무가설 기각 실패. → 결론 필요하면 데이터 추가 수집 또는 결론 유보.
귀무가설 (Null Hypothesis, H₀)
- 의미: "영(null)으로 돌릴(없앨) 가설" → 기각 대상 가설. 보통 "효과 없다", "차이 없다" 형태.
- 설정 이유: 특정 값(예: 차이=0) 반증하는 것이, 무수히 많 은 가능성(예: 차이=+1, +10 등) 중 하나 입증보다 상대적으로 쉬움.
- 형태: 보통 모수가 특정 값과 같다는 형태 (예: 두 집단 평균 차이 = 0).
대립가설 (Alternative Hypothesis, H₁ 또는 Hₐ)
- 의미: 연구자가 실제로 입증/주장하고자 하는 가설 (예: "효과 있다", "차이 있다").
- 특징: 통계적 검정 과정에서 직접 입증/기각되지 않음.
- 입증 방식: 귀무가설 기각됨으로써 간접적으로 입증/지지됨.
유의수준 (Significance Level, α)
- 의미: 귀무가설이 참인데도 우연(표집 오차)에 의해 관찰된 차이일 가능성 판단 기준. 제1종 오류 허용 수준.
- 역할: 극단적 가능성(귀무가설 참일 때 거의 발생 안 할 결과) 범위 지정 (보통 5% = 0.05).
- 판단: 관찰된 차이가
- 유의수준 범위 밖 (95% 확률로 발생 가능 범위) → 귀무가설 기각 X.
- 유의수준 범위 안 (5% 확률로 발생 희박 범위) → 귀무가설 기각 O.
- 기준: 절대적 기준 없음 (분야, 관례 따라 다름).
p-value
- 정의: 귀무가설이 참이라고 가정할 때, 현재 관찰된 결과 또는 그보다 더 극단적인 결과가 나올 확률.
- 역할: 관찰된 차이를 유의수준과 비교하기 위해 변환한 수치.
- 판단 기준:
- p-value < 유의수준 (α): 귀무가설 기각. (결과가 우연히 나오기엔 너무 희박함)
- p-value ≥ 유의수준 (α): 귀무가설 기각 실패. (결과가 우연히 나올 수도 있음)
- 영향 요소:
- 귀무가설 값과 통계량(표본 값) 차이 (클수록 p-value 작아짐).
- 표본 크기 (클수록 p-value 작아짐).
- 모집단 변산성 (클수록 p-value 커짐).
일표본 t 검정 (One Sample t-test)
- 목적: 한 집단의 평균에 대한 가설 검정.
- 귀무가설: 모평균 = 특정 값 (예: H₀: 모평균 = 900).
- Python 예시:
import pingouin as pg
# df.price의 모평균이 900인지 검정 (95% 신뢰수준)
pg.ttest(df.price, 900, confidence=0.95) - 해석:
- 결과 표의
p-val
확인.p < 0.05
이면 귀무가설(모평균=900) 기각. - 유의수준 5% 검정 결과 = 95% 신뢰구간 결과와 동일:
- p < 0.05 (귀무가설 기각) ↔ 95% 신뢰구간이 900 포함 안 함.
- p ≥ 0.05 (기각 실패) ↔ 95% 신뢰구간이 900 포함 함.
- 결과 표의