Skip to main content

부트스트래핑

  • 평균과 달리 중간값, 최빈값 등의 통계량은 오차 범위 이론적 유도 어려움.

  • 표본이 충분히 크면 부트스트래핑이라는 시뮬레이션 기법을 사용해서 신뢰구간을 추정

  • 오차 범위는 모집단에서 서로 다른 표본이 확률적으로 표집됨 → 표집 오차의 확률 분포를 추정하는 것

  • 부트스트래핑: 표본에서 다른 표본을 재표집(resampling)

    • "pull yourself up by your own bootstrap"
  • 가정:

    • 표본이 모집단을 어느 정도 반영한다면
    • 이러한 재표집 또한 모집단에서 표본이 표집되는 과정을 반영할 것
    • → 오차 범위도 비슷하게 추정될 것
  • 예시: 중간값의 95% 신뢰구간 계산 (scipy 활용)

import numpy as np
import scipy as sp

np.random.seed(1234) # 재현성 있는 결과를 위해 시드 설정
# 부트스트래핑 실행
result = sp.stats.bootstrap(
[df.price], # 데이터
np.median, # 계산할 통계량 (중간값)
n_resamples=10000, # 시뮬레이션(재표집) 횟수
confidence_level=0.95 # 신뢰수준
)
result.confidence_interval # 신뢰구간

퀴즈

사용자 정보 입력
퀴즈를 시작하기 전에 이름과 소속을 입력해주세요.

Q&A