Skip to main content

오차 범위에 영향을 주는 요소

데이터의 변산성 (Variability)

  • 데이터 퍼짐 정도 클수록 (변산성 크면) 오차 범위 커짐.
  • 예시:
    • 6면체 주사위(값 1-6) vs 20면체 주사위(값 1-20). 둘 다 기대값 비슷하게 조정 가능해도, 20면체 쪽 변산성 훨씬 커서 오차 범위 훨씬 큼. (20면체 10개 굴려 모두 8이하 나올 가능성 > 6면체 10개 굴려 모두 1 나올 가능성)
  • 개선: 실험/측정 정확히 하여 변산성 낮추면 오차 범위 작아짐.
  • 한계: 데이터에 내재한 본질적 변산성은 없앨 수 없음.

표본의 크기 (Sample Size)

  • 표본 크기 크면 오차 범위 작아짐.
  • 예시: 주사위 10개 굴리기(10d6) vs 50개 굴리기(50d6). 50개 굴릴 때 평균이 실제 평균(3.5)에 더 가까울 확률 높음.
  • 무한히 던지면: 평균은 정확히 3.5 수렴 (오차 범위 0).
  • 통계 문제 해결 핵심: 데이터 더 모아 표본 크기 키우는 것 (Big Data!).
  • 단점: 시간, 비용 증가.

표본의 크기

표본의 크기를 ¼로 줄일 경우

n, _ = df.shape
small = df.price.sample(n // 4, random_state=1234) # 1/4개 무작위 비복원 추출
pg.ttest(small, 0)

표본의 크기를 4배로 늘릴 경우

large = df.price.sample(n * 4, replace=True, random_state=1234) # 4배 무작위 복원 추출
pg.ttest(large, 0)
  • ※ 주의: 위는 표본의 크기가 변할 때 예시를 위한 것
  • ※ 실제 분석에서 데이터를 임의로 줄이거나 늘리면 절대 안됩니다!!

여론조사의 "표본오차" 항목

  • 국내 여론조사 결과 발표 시 "표본오차"라는 이름으로 오차 범위 표시.
  • 중심극한정리에 따라 신뢰수준 95%에서 오차범위는 다음과 같이 계산
±1.9650%N\pm 1.96 * \frac{50 \%}{\sqrt N}
  • 계수 의미:
    • 1.96: 신뢰수준 95% 해당 값 (정규분포 기준. 99%면 약 2.58).
    • 50: 보통 응답 비율 50%(찬반 등)일 때 변산성(오차) 가장 크므로, 이를 기준 계산.
    • N: 설문 응답자 수.
  • 활용: 원하는 오차 범위 목표 시, 필요한 설문 응답자 수 역산 가능.
    • 예: ±10% 오차 범위 목표 → 약 100명 필요.
    • 표본 크기 4배 늘리면 오차 범위 1/2로 줄어듦 (N\sqrt N에 반비례).

퀴즈

사용자 정보 입력
퀴즈를 시작하기 전에 이름과 소속을 입력해주세요.

Q&A