p-value
p-value에 영향을 주는 요소
- 모집단의 변산성이 커지면 p-value는 커짐 → 귀무가설 기각 어려워짐 → 통계적으로 유의한 차이를 발견하기 어려움
- 표본의 크기가 커지면 p-value는 작아짐 (다음 장)
- 신뢰수준 vs. 유의수준:
- 신뢰구간은 신뢰수준에 영향을 받음
- p-value는 유의수준에 영향을 받지 않음 → 계산 후에 유의수준과 비교
- 귀무가설과 통계량의 차이
- p-value는 둘 사이의 차이가 크면 작아짐 → 귀무가설 기각 쉬워짐 → 통계적으로 유의한 차이를 발견하기 쉬움
- 신뢰구간은 모수에 대한 가설이 없음 → 그 자체가 모수에 대한 구간 추정(귀무가설에 영향 X)
표본의 크기
- 표본의 크기가 커지면
- 신뢰구간 작아짐 (같은 귀무가설이라도 신뢰구간에 배제되기 쉬움)
- p-value는 작아짐 → 귀무가설 기각 쉬워짐
- 통계적으로 유의한 차이를 발견하기 쉬움
- 검정력 높아짐
- 표본이 작아지면 반대
- 원래 표본으로 가설검정을 하면 통계적으로 유의
import pandas as pd
import pingouin as pg
df = pd.read_excel('car.xlsx')
avante = df.query('model == "Avante"').price
k3 = df.query('model == "K3"').price
pg.ttest(avante, k3)
- 표본 크기를 50개로 줄이면 통계적으로 유의하지 않게 됨
avs = avante.sample(50, random_state=1234)
k3s = k3.sample(50, random_state=1234)
pg.ttest(avs, k3s)
- 주의: 위는 표본의 크기가 변할 때 예시를 위한 것
- 실제 분석에서 데이터를 임의로 줄이거나 늘리면 절대 안됩니다!
퀴즈
사용자 정보 입력
퀴즈를 시작하기 전에 이름과 소속을 입력해주세요.