오차 범위
오차 범위에 영향을 주는 요소
- 신뢰수준: 얼마나 극단적 경우까지 포함할 것인가?
- 표본 크기: 표본에 얼마나 많은 사례 포함할 것인가?
- 모집단 변산성: 모집단 데이터 퍼짐 정도 얼마나 큰가?
신뢰수준 (Confidence Level)
- 극단적인 경우를 포함하면 오차범위는 커짐
- 예: 6면체 주사위를 굴렸을 때 모두 1이나 모두 6이 나오면 표집 오차가 최대
- 극단적인 경우를 배제하면 오차범위를 줄일 수 있음
- 유의수준(significance level): 배제하는 극단적인 경우의 비율
- 예: 유의수준 5% = 5%의 극단적인 경우는 배제함
- 신뢰수준 = 100% - 유의수준
- 오차범위에 고려하는 비율
- 신뢰수준과 오차범위:
- 높은 신뢰수준 → 더 많은 가능성 → 넓은 오차범위
- 낮은 신뢰수준 → 더 적은 가능성 → 좁은 오차범위
- "신뢰"라는 말 때문에 헷갈리기 쉬우므로 주의
평균의 신뢰구간
pg.ttest(df.price, 0, confidence=0.95) # 95% 신뢰구간
pg.ttest(df.price, 0, confidence=0.99) # 99% 신뢰구간
중간값의 신뢰구간
sp.stats.bootstrap([df.price], np.median, confidence_level=0.95) # 95% 신뢰구간
sp.stats.bootstrap([df.price], np.median, confidence_level=0.99) # 99% 신뢰구간