기술 통계와 탐색적 데이터 분석
데이터를 표로 정리하기
- 행 (row):
- 표에서 가로 방향 한 줄.
- 하나의 사례(case) 또는 관측치(observation) 해당.
- 열 (column):
- 표에서 세로 방향 한 줄.
- 하나의 변수(variable) 또는 특성(feature) 해당.
| 열 (column) | 변수 (variable) |
---|
행 | | |
row | | |
사례 | | |
변수의 종류
- 범주형 변수 (Categorical Variable): 종류, 이름, 그룹 등 해당.
- 숫자로 표시되어도 양적 개념 아님 (예: 성별 1=남, 2=여).
- 덧셈 등 대부분 산술 연산 의미 없음.
- 순서 있을 수 있으나 (예: 학력), 간격 일정하지 않음.
- 예: 주거 형 태, 고향, 학력, 출석 여부, 혈액형.
- 연속형 변수 (Continuous Variable): 연속적 수치. 양적 의미 가짐.
- 간격 일정하고 덧셈, 뺄셈 등 계산 의미 있음.
- 예: 무게, 나이, 시간, 거리, 자녀 수, 시험 점수, 가격.
기술 통계 (Descriptive Statistics)
- 데이터를 묘사, 설명, 요약하는 통계.
- [참고] 추론 통계 (Inferential Statistics): 데이터를 바탕으로 더 큰 집단(모집단)에 대해 추론, 예측.
- 주요 측정치:
- 중심 경향치 (Central Tendency): 데이터가 어디에 몰려있는가? (평균, 중간값, 최빈값)
- 분위수 (Quantile): 데이터에서 각 값의 상대적 순위/위치? (사분위수, 백분위수)
- 변산성 측정치 (Measure of Variability/Dispersion): 데이터가 얼마나 퍼져있는가? (범위, IQR, 분산, 표준편차)
중심 경향치: 평균 (Mean)
- N개 값의 합계를 N으로 나눈 것 (산술 평균).
- 단점: 극단값(outlier)에 영향 크게 받음.
- 10, 20, 30, 40, 50 → 평균 30
- 10, 20, 30, 40, 500 → 평균 120 (극단값 500 때문 에 크게 증가)
- [참고] 1986년 UNC 졸업생 초봉 조사:
- 가장 높은 학과: 지리학과 (약 25만 달러)
- 당시 미국 대졸 평균 초봉: 약 2만 2천 달러
- 이유: 당시 졸업생 중 마이클 조던(지리학과) 포함. 극단값 영향.
- Average vs. Mean:
- 한국어: 둘 다 "평균".
- 통계:
mean
사용 정확.
mean
: 산술/기하/조화 평균 등 포함. 특별 언급 없으면 산술 평균.
average
: 일상적 표현. 보통 산술 평균 의미.
- 값들을 크기 순 정렬 시 가운데 위치한 값.
- 장점: 극단값 영향 받지 않음.
- 10, 20, 30, 40, 50 → 중간값 30
- 10, 20, 30, 40, 500 → 중간값 30
- "중위수" 라고도 함 (예: 중위소득, 중위가격).
- 값 개수가 짝수일 경우: 가운데 두 값의 평균.
- 10, 20, 30, 40 → 중간값 (20+30)/2 = 25
평균 vs. 중간값
- 소득 분포: 보통 고소득 극단값 때문에
평균 소득 > 중위 소득
. 평균만 보면 소득 수준 과대평가 가능.
- 중간값의 함정: 만약 여러 고객 중 1명만 구매 시,
1인당 중위 매출 = 0원
. 이는 전체 매출 파악 어렵게 함.
- 결론: 평균과 중간값은 보여주는 측면 다름. 둘 다 함께 보는 것이 바람직.
중심 경향치: 최빈값 (Mode)
- 가장 자주 관찰된(빈도가 높은) 값.
- 영어
mode
: 상태, 유행, 가장 많은 것 등의 뜻.
- 활용: 연속 변수보다 범주형 변수에 유용 (예: 직원 중 김씨가 30%로 가장 많음).
- 연속 변수 경우: 보통 구간 나누어 최빈값 구함 (예: 고객 중 30대가 25%로 가장 많음).
- 주의: 구간 나누는 방법에 따라 최빈값 달라질 수 있음.
Python 중심경향치 계산
df.price
: df 데이터프레임의 'price' 컬럼(열) 선택.
- 평균:
- 중간값:
- 최빈값:
- 범주별 빈도: