Skip to main content

기술 통계와 탐색적 데이터 분석

데이터를 표로 정리하기

  • 행 (row):
    • 표에서 가로 방향 한 줄.
    • 하나의 사례(case) 또는 관측치(observation) 해당.
  • 열 (column):
    • 표에서 세로 방향 한 줄.
    • 하나의 변수(variable) 또는 특성(feature) 해당.
열 (column)변수 (variable)
row
사례

변수의 종류

  • 범주형 변수 (Categorical Variable): 종류, 이름, 그룹 등 해당.
    • 숫자로 표시되어도 양적 개념 아님 (예: 성별 1=남, 2=여).
    • 덧셈 등 대부분 산술 연산 의미 없음.
    • 순서 있을 수 있으나 (예: 학력), 간격 일정하지 않음.
    • 예: 주거 형태, 고향, 학력, 출석 여부, 혈액형.
  • 연속형 변수 (Continuous Variable): 연속적 수치. 양적 의미 가짐.
    • 간격 일정하고 덧셈, 뺄셈 등 계산 의미 있음.
    • 예: 무게, 나이, 시간, 거리, 자녀 수, 시험 점수, 가격.

기술 통계 (Descriptive Statistics)

  • 데이터를 묘사, 설명, 요약하는 통계.
  • [참고] 추론 통계 (Inferential Statistics): 데이터를 바탕으로 더 큰 집단(모집단)에 대해 추론, 예측.
  • 주요 측정치:
    • 중심 경향치 (Central Tendency): 데이터가 어디에 몰려있는가? (평균, 중간값, 최빈값)
    • 분위수 (Quantile): 데이터에서 각 값의 상대적 순위/위치? (사분위수, 백분위수)
    • 변산성 측정치 (Measure of Variability/Dispersion): 데이터가 얼마나 퍼져있는가? (범위, IQR, 분산, 표준편차)

중심 경향치: 평균 (Mean)

  • N개 값의 합계를 N으로 나눈 것 (산술 평균).
  • 단점: 극단값(outlier)에 영향 크게 받음.
    • 10, 20, 30, 40, 50 → 평균 30
    • 10, 20, 30, 40, 500 → 평균 120 (극단값 500 때문에 크게 증가)
  • [참고] 1986년 UNC 졸업생 초봉 조사:
    • 가장 높은 학과: 지리학과 (약 25만 달러)
    • 당시 미국 대졸 평균 초봉: 약 2만 2천 달러
    • 이유: 당시 졸업생 중 마이클 조던(지리학과) 포함. 극단값 영향.
  • Average vs. Mean:
    • 한국어: 둘 다 "평균".
    • 통계: mean 사용 정확.
    • mean: 산술/기하/조화 평균 등 포함. 특별 언급 없으면 산술 평균.
    • average: 일상적 표현. 보통 산술 평균 의미.

중심 경향치: 중간값 (Median)

  • 값들을 크기 순 정렬 시 가운데 위치한 값.
  • 장점: 극단값 영향 받지 않음.
    • 10, 20, 30, 40, 50 → 중간값 30
    • 10, 20, 30, 40, 500 → 중간값 30
  • "중위수" 라고도 함 (예: 중위소득, 중위가격).
  • 값 개수가 짝수일 경우: 가운데 두 값의 평균.
    • 10, 20, 30, 40 → 중간값 (20+30)/2 = 25

평균 vs. 중간값

  • 소득 분포: 보통 고소득 극단값 때문에 평균 소득 > 중위 소득. 평균만 보면 소득 수준 과대평가 가능.
  • 중간값의 함정: 만약 여러 고객 중 1명만 구매 시, 1인당 중위 매출 = 0원. 이는 전체 매출 파악 어렵게 함.
  • 결론: 평균과 중간값은 보여주는 측면 다름. 둘 다 함께 보는 것이 바람직.

중심 경향치: 최빈값 (Mode)

  • 가장 자주 관찰된(빈도가 높은) 값.
  • 영어 mode: 상태, 유행, 가장 많은 것 등의 뜻.
  • 활용: 연속 변수보다 범주형 변수에 유용 (예: 직원 중 김씨가 30%로 가장 많음).
  • 연속 변수 경우: 보통 구간 나누어 최빈값 구함 (예: 고객 중 30대가 25%로 가장 많음).
    • 주의: 구간 나누는 방법에 따라 최빈값 달라질 수 있음.

Python 중심경향치 계산

  • df.price: df 데이터프레임의 'price' 컬럼(열) 선택.
  • 평균:
    df.price.mean()
  • 중간값:
    df.price.median()
  • 최빈값:
    df.model.mode() # 범주형 변수 'model'의 최빈값
  • 범주별 빈도:
    df.model.value_counts() # 'model'별 데이터 개수

퀴즈