통계를 배워야 하는 이유
통계학은 무엇을 위한 것인가?
- 목적: 불확실 한 상황에서 더 나은 판단("상황 파악")과 의사결정("행동 결정")을 내리기 위함.
- 세상의 불확실성: 세상 거의 모든 현상과 미래는 근본적으로 불확실성을 내포함.
- 불확실성의 원인:
- 현상 자체가 본질적으로 확률적임 (예: 날씨, 주식 시장).
- 관찰/측정 불가능한 숨겨진 변수 존재 (예: 속마음, 미확인 외부 요인).
- 현상에 영향을 미치는 인과관계가 매우 복잡하게 얽혀 있음 (예: 전염병 확산).
- (슬라이드 예시) 사람 마음: 변덕스럽고, 외부 관찰 어려우며, 작동 메커니즘 복잡함.
전문가 판단 대 통계적 예측: 왜 통계를 배워야 하는가?
통계적 방법이 인간 직관보다 예측에서 더 나은 성과를 보이는 경우가 많다는 연구 결과는 통계 학습의 중요한 이유를 제시함.
- 폴 밀(Paul Meehl)의 선구적 연구 (1954):
- "임상적 예측 대 통계적 예측" 연구에서, 학업 성과, 정신질환 예후 등 다양한 분야에서 전문가 판단보다 통계적 예측 모델이 더 정확함을 밝힘.
- 예시: 업무 실적 예측 정확도 비교 시, 전문가 판단(r=.15)보다 통계적 예측(r=.32)의 상관계수(r)가 더 높았음 (r=1에 가까울수록 정확).
- 그로브 등(Grove et al., 2000)의 메타 분석:
- 136개 연구 종합 분석 결과, 대부분 영역에서 통계적 예측이 전문가 판단보다 우위거나 최소한 비슷한 수준임을 재확인함 (통계 우위 63개, 동률 65개, 전문가 우위 단 8개).
- 이는 통계 모델이 편향(bias)이나 '잡음(noise)' 없이 일관된 규칙으로 데이터를 처리하기 때문으로 해석됨.
- 루이스 골드버그(Lewis Goldberg) 등의 연구:
- 흥미롭게도, 전문가의 판단 방식을 학습한 통계 모델이 그 전문가 자신보다 더 정확한 예측을 하는 경우도 발견됨.
- 이 역시 전문가는 내/외부적 잡음에 영향을 받지만, 모델은 항상 동일한 논리를 따르기 때문임.
- 단순 모델의 힘:
- 마틴 유 & 네이선 컨슬, 로빈 도스 등의 연구는 매우 단순한 통계 규칙(예: 중요 변수 단순 합산)조차 많은 경우 전문가의 복잡한 판단보다 낫다는 것을 보여줌.
- 전문가 판단이 필요한 경우:
- "부러진 다리(broken leg)" 문제: 모델에 포함되지 않은 매우 예외적이고 특수한 정보가 있을 때는 전문가의 판단이 더 중요할 수 있음. (예: 매주 영화관 가던 사람의 다음 주 관람 확률 예측 시, '다리가 부러졌다'는 정보는 통계 모델 예측보다 전문가 판단을 더 정확하게 만듦).
- 필립 테틀록(Philip Tetlock)의 "슈퍼 예측":
- 정치, 경제 등 전문가 예측 연구 결과, 상당수 전문가 예측이 무작위 예측(원숭이 다트 던지기) 수준임을 발견함.
- 반면, 특정 분야 전문가가 아니어도 뛰어난 예측 능력을 보이는 소수 일반인("슈퍼 예측자") 존재. 이들은 개방적/확률적 사고, 지속적 정보 업데이트 및 예측 수정 등 통계적 사고와 유사한 특징을 보임.
- 예측 능력과 관련 없는 요인 vs. 있는 요인:
- 테틀록 연구: 예측 정확도는 교육 수준, 경력, 직업, 뉴스 소비량, 성별, 자신감, 이념 등과는 큰 관련 없었음.
- 관련 있는 요인: 생각하는 방식(Cognitive Style), 즉 정보를 통합 처리하고, 다양성을 고려하며, 불확실성을 인정하고 믿음을 업데이트하는 유연하고 개방적인 사고방식 (통계적 소양과 밀접).
통계적 예측이 충분히 활용되지 못하는 이유
- 심리적 편향
- 타당성의 환상: 스스로 생각하는 판단의 정확성과 실제 정확성의 괴리
- 판단을 직접 내릴 때 얻는 만족감(퍼즐이 맞춰지는 느낌)이 보상으로 작용
- 어려움
- 통계학은 상대적으로 최신 학문(최초의 통계학과는 20세기 초 설치) → 인간 직관에 반함
- 잘못된 기대
- 통계가 완벽하기를 기대 → 오류에 지나치게 실망(인간의 실수에는 관대함)
- 예측에서 단순성과 복잡성에 대한 오해: 통계가 너무 단순해서 복잡한 현실을 다룰 수 없다고 생각 (통계를 잘 모르면 할 수 있는 오해)
- 충분한 데이터가 없을 때 섣부르게 복잡한 방법을 쓰면 노이즈에 영향을 많이 받을 수 있음
- 미묘함
- 통계적 분석이 필요할 정도로 미묘한 문제의 경우, 역설적으로 차이를 체감하기 어려움