Skip to main content

오차 범위에 영향을 주는 요소

오차 범위 (Margin of Error)

  • 표집 오차가 발생할 수 있는 범위.
  • 예시: 6면체 주사위 표집 오차는 아무리 커도 ±2.5 넘을 수 없음 (최소 평균 1, 최대 평균 6이므로).
  • 영향 요소:
    • 신뢰수준 (Confidence Level): 얼마나 극단적 경우까지 포함할 것인가?
    • 표본 크기 (Sample Size): 표본에 얼마나 많은 사례 포함할 것인가?
    • 모집단 변산성 (Population Variability): 모집단 데이터 퍼짐 정도 얼마나 큰가?

신뢰수준 (Confidence Level)

  • 극단적인 경우를 포함하면 오차범위는 커짐
    • 예: 6면체 주사위를 굴렸을 때 모두 1이나 모두 6이 나오면 표집 오차가 최대
  • 극단적인 경우를 배제하면 오차범위를 줄일 수 있음
  • 유의수준(significance level): 배제하는 극단적인 경우의 비율
    • 예: 유의수준 5% = 5%의 극단적인 경우는 배제함
  • 신뢰수준 = 100% - 유의수준
    • 오차범위에 고려하는 비율
  • 신뢰수준과 오차범위:
    • 높은 신뢰수준 → 더 많은 가능성 → 넓은 오차범위
    • 낮은 신뢰수준 → 더 적은 가능성 → 좁은 오차범위
  • ※ "신뢰"라는 말 때문에 헷갈리기 쉬우므로 주의

신뢰 수준에 따른 신뢰구간 비교

pg.ttest(df.price, 0, confidence=0.95) # 95% 신뢰구간
# → [814.1, 893.22]
pg.ttest(df.price, 0, confidence=0.99) # 99% 신뢰구간
# → [801.5, 905.8] 더 넓음!

부트스트랩

sp.stats.bootstrap([df.price], np.median, confidence_level=0.95) # 95% 신뢰구간
# → [770.0, 865.0]
sp.stats.bootstrap([df.price], np.median, confidence_level=0.99) # 99% 신뢰구간
# → [760.0, 885.0] 더 넓음!

신뢰 수준 100%면 안되는 이유

  • 신뢰 수준 100%는 모든 가능성을 포함해야 함. 이는 "범인은 20~50대 남자 혹은 여자", "도주 경로는 전국 또는 해외" 와 같이 아무 정보도 주지 못하는 무의미한 추정이 됨.

신뢰 수준의 결정

  • 타협 필요: 절대적 기준 없음. 적절한 수준에서 결정.
  • 너무 높으면 (예: 99.9%): 가능성 희박한 극단 경우 너무 많이 고려 → 오차 범위 너무 넓어져 의사결정 불가.
  • 너무 낮으면 (예: 80%): 발생 가능한 경우 너무 많이 배제 → 오차 범위 좁지만, 실제 모수 포함 못 할 위험 커져 추정 타당성 떨어짐.
  • 관례적 기준: 교과서 등에서 95%, 99% 등을 추천하나, 분야나 문제 상황 따라 다르게 적용 가능.

퀴즈

사용자 정보 입력
퀴즈를 시작하기 전에 이름과 소속을 입력해주세요.

Q&A