부트스트래핑
-
평균과 달리 중간값, 최빈값 등의 통계량은 오차 범위 이론적 유도 어려움.
-
표본이 충분히 크면 부트스트래핑이라는 시뮬레이션 기법을 사용해서 신뢰구간을 추정
-
오차 범위는 모집단에서 서로 다른 표본이 확률적으로 표집됨 → 표집 오차의 확률 분포를 추정하는 것
-
부트스트래핑: 표본에서 다른 표본을 재표집(resampling)
- "pull yourself up by your own bootstrap"
-
가정:
- 표본이 모집단을 어느 정도 반영한다면
- 이러한 재표집 또한 모집단에서 표본이 표집되는 과정을 반영할 것
- → 오차 범위도 비슷하게 추정될 것
-
예시: 중간값의 95% 신뢰구간 계산 (scipy 활용)
import numpy as np
import scipy as sp
np.random.seed(1234) # 재현성 있는 결과를 위해 시드 설정
# 부트스트래핑 실행
result = sp.stats.bootstrap(
[df.price], # 데이터
np.median, # 계산할 통계량 (중간값)
n_resamples=10000, # 시뮬레이션(재표집) 횟수
confidence_level=0.95 # 신뢰수준
)
result.confidence_interval # 신뢰구간
퀴즈
사용자 정보 입력
퀴즈를 시작하기 전에 이름과 소속을 입력해주세요.