오차 범위에 영향을 주는 요소
오차 범위 (Margin of Error)
- 표집 오차가 발생할 수 있는 범위.
- 예시: 6면체 주사위 표집 오차는 아무리 커도 ±2.5 넘을 수 없음 (최소 평균 1, 최대 평균 6이므로).
- 영향 요소:
- 신뢰수준 (Confidence Level): 얼마나 극단적 경우까지 포함할 것인가?
- 표본 크기 (Sample Size): 표본에 얼마나 많은 사례 포함할 것인가?
- 모집단 변산성 (Population Variability): 모집단 데이터 퍼짐 정도 얼마나 큰가?
신뢰수준 (Confidence Level)
- 극단적인 경우를 포함하면 오차범위는 커짐
- 예: 6면체 주사위를 굴렸을 때 모두 1이나 모두 6이 나오면 표집 오차가 최대
- 극단적인 경우를 배제하면 오차범위를 줄일 수 있음
- 유의수준(significance level): 배제하는 극단적인 경우의 비율
- 예: 유의수준 5% = 5%의 극단적인 경우는 배제함
- 신뢰수준 = 100% - 유의수준
- 오차범위에 고려하는 비율
- 신뢰수준과 오차범위:
- 높은 신뢰수준 → 더 많은 가능성 → 넓은 오차범위
- 낮은 신뢰수준 → 더 적은 가능성 → 좁은 오차범위
- ※ "신뢰"라는 말 때문에 헷갈리기 쉬우므로 주의
신뢰 수준에 따른 신뢰구간 비교
pg.ttest(df.price, 0, confidence=0.95) # 95% 신뢰구간
# → [814.1, 893.22]
pg.ttest(df.price, 0, confidence=0.99) # 99% 신뢰구간
# → [801.5, 905.8] 더 넓음!
부트스트랩
sp.stats.bootstrap([df.price], np.median, confidence_level=0.95) # 95% 신뢰구간
# → [770.0, 865.0]
sp.stats.bootstrap([df.price], np.median, confidence_level=0.99) # 99% 신뢰구간
# → [760.0, 885.0] 더 넓음!
신뢰 수준 100%면 안되는 이유
- 신뢰 수준 100%는 모든 가능성을 포함해야 함. 이는 "범인은 20~50대 남자 혹은 여자", "도주 경로는 전국 또는 해외" 와 같이 아무 정보도 주지 못하는 무의미한 추정이 됨.
신뢰 수준의 결정
- 타협 필요: 절대적 기준 없음. 적절한 수준에서 결정.
- 너무 높으면 (예: 99.9%): 가능성 희박한 극단 경우 너무 많이 고려 → 오차 범위 너무 넓어져 의사결정 불가.
- 너무 낮으면 (예: 80%): 발생 가능한 경우 너무 많이 배제 → 오차 범위 좁지만, 실제 모수 포함 못 할 위험 커져 추정 타당성 떨어짐.
- 관례적 기준: 교과서 등에서 95%, 99% 등을 추천하나, 분야나 문제 상황 따라 다르게 적용 가능.
퀴즈
사용자 정보 입력
퀴즈를 시작하기 전에 이름과 소속을 입력해주세요.