오차 범위에 영향을 주는 요소

데이터의 변산성 (Variability)

데이터 퍼짐 정도 클수록 (변산성 크면) 오차 범위 커짐.
예시:
- 6면체 주사위(값 1-6) vs 20면체 주사위(값 1-20). 둘 다 기대값 비슷하게 조정 가능해도, 20면체 쪽 변산성 훨씬 커서 오차 범위 훨씬 큼. (20면체 10개 굴려 모두 8이하 나올 가능성 > 6면체 10개 굴려 모두 1 나올 가능성)
개선: 실험/측정 정확히 하여 변산성 낮추면 오차 범위 작아짐.
한계: 데이터에 내재한 본질적 변산성은 없앨 수 없음.

표본 크기 크면 오차 범위 작아짐.
예시: 주사위 10개 굴리기(10d6) vs 50개 굴리기(50d6). 50개 굴릴 때 평균이 실제 평균(3.5)에 더 가까울 확률 높음.
무한히 던지면: 평균은 정확히 3.5 수렴 (오차 범위 0).
통계 문제 해결 핵심: 데이터 더 모아 표본 크기 키우는 것 (Big Data!).
단점: 시간, 비용 증가.

표본의 크기를 ¼로 줄일 경우

n, _ = df.shape
small = df.price.sample(n // 4, random_state=1234)  # 1/4개 무작위 비복원 추출
pg.ttest(small, 0)

표본의 크기를 4배로 늘릴 경우

large = df.price.sample(n * 4, replace=True, random_state=1234) # 4배 무작위 복원 추출
pg.ttest(large, 0)

\pm 1.96 * \frac{50 \%}{\sqrt N}

계수 의미:
- 1.96: 신뢰수준 95% 해당 값 (정규분포 기준. 99%면 약 2.58).
- 50: 보통 응답 비율 50%(찬반 등)일 때 변산성(오차) 가장 크므로, 이를 기준 계산.
- N: 설문 응답자 수.
활용: 원하는 오차 범위 목표 시, 필요한 설문 응답자 수 역산 가능.
- 예: ±10% 오차 범위 목표 → 약 100명 필요.
- 표본 크기 4배 늘리면 오차 범위 1/2로 줄어듦 ( $\sqrt N$ 에 반비례).

사용자 정보 입력

퀴즈를 시작하기 전에 이름과 소속을 입력해주세요.

이름

별명

소속