Skip to main content

무작위화

증거의 사다리

  • 실험적 통제
    • 처치를 제외한 다른 모든 조건을 동일하게 유지
    • 인과관계를 확인할 수 있는 최선의 조건
    • 물리학, 화학 등 일부에서만 가능
  • 무작위 대조군
    • 모든 조건을 완벽하게 통제할 수 없을 경우
    • 실험군과 대조군에 무작위 할당
    • 표집 오차가 있을 수 있음
    • 생물학, 사회과학 등에서 주로 사용
  • 준실험(quasi-experiment)
    • 대조군이 없거나 무작위 할당을 하지 않았지만 실험과 비슷한 상황
    • 자연적으로 무작위 할당과 비슷한 결과가 생긴 경우
  • 반사실(counterfactual)
    • 순수한 관찰 결과만을 가지고 인과관계를 추측
    • 어떤 일이 벌어지지 않았을 때 일어날 일을 예측하는 모형이 필요
    • 모형의 예측과 실제의 결과를 비교하여 인과관계를 추론

완전 무작위화 설계 (Completely Randomized Design, CRD)

  • 가장 기본적이고 간단한 실험 설계
    • 모든 실험 단위(샘플)에 대해 어떠한 처리(조건)가 적용될 확률이 동일하도록 완전히 무작위로 조건을 배정
  • 예시: 세 가지 다른 냉각 속도(조건 A, B, C)가 강판의 최종 경도에 미치는 영향을 비교하기 위해, 15개의 동일한 강판 샘플에 냉각 조건을 무작위로 할당하는 실험.

실험 계획 생성하기

  • 비교 실험의 시작
    • 가장 간단한 비교 실험은 두 조건(예: 처리 1, 처리 2)의 효과를 비교
    • 실험의 신뢰도를 높이려면 어떤 표본을 어떤 순서로 실험할지 무작위(랜덤)로 배정
  • Python으로 랜덤 실험 순서 만들기
    • numpy 라이브러리를 사용하면 간단하게 랜덤 순서를 만들 수 있음
    • 예: 조건 1과 조건 2를 각각 10회씩 실험(n=10)하는 경우의 랜덤 실험 계획
import numpy as np
n = 10 # 각 조건별 실험 횟수(표본 크기) 설정
design = [1, 2] * n # 1과 2를 n번 반복
np.random.shuffle(design) # 실험 순서를 무작위로 섞기

모집단과 표본

  • 모집단 (Population)
    • 관심의 대상이 되는 전체 집단
    • 예: "새로운 공정으로 생산될 모든 강판의 인장 강도"
    • 현실적으로 모집단 전체를 조사하는 것은 불가능
  • 표본 (Sample)
    • 모집단의 특성을 파악하기 위해 실제로 조사하는 모집단의 일부
    • 예: "새 공정으로 만든 20개의 강판 표본"
  • 표집 (Sampling) 과 표집 오차 (Sampling Error)
    • 모집단에서 표본을 추출하는 과정

모수와 통계량

  • 모수(population parameter): 모집단의 특성치
    • 모집단의 평균, 분산 등등
    • 흔히 "모-"를 붙여 모평균, 모분산 등과 같이 말함
    • 전수 조사를 통해서 알 수 있음
  • 통계량(sample statistic): 표본에서 얻은 수로 계산한 값
    • 표본의 평균, 분산 등등
    • 흔히 "표본-"을 붙여 표본평균, 표본분산 등과 같이 말함
    • "표본의 모수"라는 표현은 없음 -> 표본의 크기 또는 표본 통계량
  • 표집 오차 (sampling error)
    • 표본이 모집단과 다르기 때문에 발생하는 통계량과 모수의 차이
    • 예: 앞뒷면이 나올 확률이 같은 동전을 10번 던진다고 반드시 앞뒷면이 5번씩 나오는 것은 아님
  • 추정(estimation): 통계량으로부터 모수를 추측하는 절차

퀴즈