Skip to main content

오차 범위에 영향을 주는 요소

오차 범위 (Margin of Error)

  • 표집 오차가 발생할 수 있는 범위.
  • 예시: 6면체 주사위 표집 오차는 아무리 커도 ±2.5 넘을 수 없음 (최소 평균 1, 최대 평균 6이므로).
  • 영향 요소:
    • 신뢰수준 (Confidence Level): 얼마나 극단적 경우까지 포함할 것인가?
    • 표본 크기 (Sample Size): 표본에 얼마나 많은 사례 포함할 것인가?
    • 모집단 변산성 (Population Variability): 모집단 데이터 퍼짐 정도 얼마나 큰가?

신뢰수준 (Confidence Level)

  • 모수가 특정 구간 안에 포함될 것이라고 믿는(기대하는) 정도. 통계적 추정의 확실성 수준.

  • 극단값 포함: 극단적 경우(우연히 발생 확률 낮은 값) 포함하면 오차 범위 커짐.

  • 극단값 배제: 극단적 경우 배제하면 오차 범위 줄일 수 있음.

  • 유의수준 (Significance Level, α): 배제하는 극단적 경우의 비율 (보통 5% = 0.05).

  • 신뢰수준 = 100% - 유의수준. (예: 유의수준 5% → 신뢰수준 95%). 오차 범위 계산 시 고려하는 비율.

  • 신뢰수준과 오차범위 관계:

    • 높은 신뢰수준 (예: 99%) → 더 많은 가능성(극단값) 포함 → 넓은 오차범위.
    • 낮은 신뢰수준 (예: 90%) → 더 적은 가능성 포함 → 좁은 오차범위.
  • 주의: "신뢰"라는 단어 때문에 일상적 의미와 혼동하기 쉬움. 단순히 오차 범위 계산 시 적용하는 확률 기준임.

  • 신뢰수준 95% 경우 오차 범위 < 신뢰수준 99% 경우 오차 범위

신뢰 수준 100%면 안되는 이유

  • 신뢰 수준 100%는 모든 가능성을 포함해야 함. 이는 "범인은 20~50대 남자 혹은 여자", "도주 경로는 전국 또는 해외" 와 같이 아무 정보도 주지 못하는 무의미한 추정이 됨.

신뢰 수준의 결정

  • 타협 필요: 절대적 기준 없음. 적절한 수준에서 결정.
  • 너무 높으면 (예: 99.9%): 가능성 희박한 극단 경우 너무 많이 고려 → 오차 범위 너무 넓어져 의사결정 불가.
  • 너무 낮으면 (예: 80%): 발생 가능한 경우 너무 많이 배제 → 오차 범위 좁지만, 실제 모수 포함 못 할 위험 커져 추정 타당성 떨어짐.
  • 관례적 기준: 교과서 등에서 95%, 99% 등을 추천하나, 분야나 문제 상황 따라 다르게 적용 가능.

데이터의 변산성 (Variability)

  • 데이터 퍼짐 정도 클수록 (변산성 크면) 오차 범위 커짐.
  • 예시:
    • 6면체 주사위(값 1-6) vs 20면체 주사위(값 1-20). 둘 다 기대값 비슷하게 조정 가능해도, 20면체 쪽 변산성 훨씬 커서 오차 범위 훨씬 큼. (20면체 10개 굴려 모두 8이하 나올 가능성 > 6면체 10개 굴려 모두 1 나올 가능성)
  • 개선: 실험/측정 정확히 하여 변산성 낮추면 오차 범위 작아짐.
  • 한계: 데이터에 내재한 본질적 변산성은 없앨 수 없음.

표본의 크기 (Sample Size)

  • 표본 크기 크면 오차 범위 작아짐.
  • 예시: 주사위 10개 굴리기(10d6) vs 50개 굴리기(50d6). 50개 굴릴 때 평균이 실제 평균(3.5)에 더 가까울 확률 높음.
  • 무한히 던지면: 평균은 정확히 3.5 수렴 (오차 범위 0).
  • 통계 문제 해결 핵심: 데이터 더 모아 표본 크기 키우는 것 (Big Data!).
  • 단점: 시간, 비용 증가.

여론조사의 "표본오차" 항목

  • 국내 여론조사 결과 발표 시 "표본오차"라는 이름으로 오차 범위 표시.
  • 계산 근거: 중심극한정리(CLT)에 따라, 보통 95% 신뢰수준에서 오차 범위 계산.
±1.96p(1p)N=±1.9650%N\pm 1.96 * \frac{\sqrt{p*(1-p)}}{\sqrt N} = \pm 1.96 * \frac{50\%}{\sqrt N}
  • 계수 의미:
    • 1.96: 신뢰수준 95% 해당 값 (정규분포 기준. 99%면 약 2.58).
    • 50: 보통 응답 비율 50%(찬반 등)일 때 변산성(오차) 가장 크므로, 이를 기준 계산.
    • N: 설문 응답자 수.
  • 활용: 원하는 오차 범위 목표 시, 필요한 설문 응답자 수 역산 가능.
    • 예: ±10% 오차 범위 목표 → 약 100명 필요.
    • 표본 크기 4배 늘리면 오차 범위 1/2로 줄어듦 (N\sqrt N에 반비례).

퀴즈