Skip to main content

데이터 분석의 종류와 관련 분야

통계와 관련된 분야 및 주제들

  • 탐색적/확인적 데이터 분석 (EDA / CDA)
  • 머신러닝 (Machine Learning)
  • 빅데이터 (Big Data)
  • 데이터 마이닝 (Data Mining)

탐색적 데이터 분석 (Exploratory Data Analysis, EDA)

  • 초점: 데이터에 대한 초기 이해 도움.
  • 목표: 데이터 구조, 패턴, 이상치, 변수 간 관계 파악.
  • 방법: 주로 시각화, 기술 통계 사용. 데이터 요약 및 분석.
  • 결과: 가설 생성, 문제 해결 위한 통찰력 도출.
  • 기여: 정형화되지 않은 질문 답변 도움, 데이터 깊이 이해 기여.

확인적 데이터 분석 (Confirmatory Data Analysis, CDA)

  • 초점: 이미 수립된 가설이나 이론 검증.
  • 목표: 가설 통계적 확인, 결과 일반화 가능성 평가.
  • 방법: 추론 통계, 회귀 분석, 가설 검정 등 사용. 가설 타당성 평가.
  • 기여: 연구자의 가설 검증 및 결과 일반화 도움.
  • EDA와의 관계: 서로 보완적.
    • 일반적으로 EDA 통해 데이터 이해 및 가설 생성 후,
    • CDA 사용하여 가설 검증.

인공지능 (Artificial Intelligence, AI)

  • 정의: 인간이나 동물의 지능을 컴퓨터나 시스템 등으로 만든 것.
  • 지능: 다양한 환경에서 목적 달성 가능한 행위자의 능력.
  • 명명: 1956년 미국 다트머스 워크숍에서 존 매카시가 명명.
  • 핵심: 반드시 인간처럼 생각해야 하는 것은 아님. 합리적 행동 중요.
    • 인간처럼 생각/행동하는 기계 vs. 합리적으로 생각/행동하는 기계 (후자가 현재 AI 흐름에 더 가까움).

머신러닝 (Machine Learning, ML)

  • 과거 AI: 논리, 계획, 지식 기반.
  • 현재 AI: 데이터로부터 통계적 패턴 학습 (이것이 머신러닝).
  • 딥러닝(Deep Learning): 머신러닝의 한 분야/일종.
  • (관계도) AI > 머신러닝 > 딥러닝 (점점 특화된 분야)

머신러닝 결과 해석

  • 과제: 머신러닝 모형 다수가 예측 과정 설명 어려운 블랙박스 모형임.
  • 한계: 일반적 설명 가능하나, 개별 사례 예측 이유 파악 어려움.
  • 중요 이슈: 인공지능 설명가능성(explainability) 현재 매우 중요함.
  • 해석(Interpretation): 모형 예측 이해/설명 과정, 방법.
  • 설명(Explanation): 개별 예측 대해 사람이 이해 가능하도록 풀어 놓은 것.
  • XAI(eXplainable AI): 설명가능한 인공지능.

머신러닝과 통계의 차이

  • 대체로 비슷하나, 경향성에 차이 존재함.
구분통계 (Statistics)머신러닝 (Machine Learning)
목적데이터 패턴 찾아 추론/결론 도출데이터 패턴 학습하여 예측/분류 등 작업 수행
데이터변수 수, 데이터 크기 적음변수 수, 데이터 크기 많음
모델가설 명시적, 해석 가능한 모델 선호작업 수행 우수한 모델 선호 (블랙박스 가능)
설명가능성대체로 높음모델 따라 다르나, 상대적으로 해석 어려운 편
응용 분야과학 연구, 의사결정, 의료 등로봇, 자동화, 추천 시스템 등

데이터 마이닝 (Data Mining)

  • 정의: 대규모 데이터셋 내 숨겨진 패턴, 추세, 관계 발견 과정.
    • 마이닝(Mining): 광산업에서 유래 (데이터 속 가치 채굴).
  • 목표: 데이터로부터 가치 있는 통찰력/지식 추출. 더 나은 의사결정, 예측, 추천 가능하게 함.
  • 기술: 머신 러닝, 통계 분석, 데이터베이스 시스템 등 활용.
  • 데이터 분석과의 관계: 데이터 마이닝은 데이터 분석의 한 부분 또는 연관 분야.

빅 데이터 (Big Data)

  • 정의: 대량의 복잡한 데이터로 구성된 데이터셋.
  • 특징: 전통적 데이터 처리 방식으로는 처리, 저장, 분석 어려울 정도로 규모 크고 복잡함.
  • 3V (주요 특징):
    1. 볼륨(Volume): 데이터 양 엄청 많음 (TB, PB 이상). 기존 시스템 처리 어려움.
    2. 속도(Velocity): 매우 빠른 속도로 데이터 생성/처리 필요. 실시간 분석/대응 요구. (예: 소셜 미디어, IoT 센서, 웹 로그).
    3. 다양성(Variety): 다양한 형태/형식 데이터 포함.
      • 정형 데이터: 표, DB 등 잘 정리된 데이터.
      • 비정형 데이터: 텍스트, 이미지, 비디오, 오디오 등 구조화되지 않은 데이터.

구글 트렌드로 본 검색량 변화 (2004~2023)

  • 추세: data mining → big data → machine learning 순으로 관심도(검색량) 증가.
  • data mining 시대: 대량 데이터에서 인사이트 도출 중시.
  • big data 시대: 데이터 규모 감당 어려움. 데이터 처리/관리 자체가 관건.
  • machine learning 시대: 데이터 기반 자동화(예측, 분류 등) 중시.

퀴즈