Skip to main content

데이터 분석의 종류와 관련 분야

통계와 관련된 분야 및 주제들

탐색적/확인적 데이터 분석 (EDA / CDA)
머신러닝 (Machine Learning)
빅데이터 (Big Data)
데이터 마이닝 (Data Mining)

탐색적 데이터 분석 (Exploratory Data Analysis, EDA)

초점: 데이터에 대한 초기 이해 도움.
목표: 데이터 구조, 패턴, 이상치, 변수 간 관계 파악.
방법: 주로 시각화, 기술 통계 사용. 데이터 요약 및 분석.
결과: 가설 생성, 문제 해결 위한 통찰력 도출.
기여: 정형화되지 않은 질문 답변 도움, 데이터 깊이 이해 기여.

확인적 데이터 분석 (Confirmatory Data Analysis, CDA)

초점: 이미 수립된 가설이나 이론 검증.
목표: 가설 통계적 확인, 결과 일반화 가능성 평가.
방법: 추론 통계, 회귀 분석, 가설 검정 등 사용. 가설 타당성 평가.
기여: 연구자의 가설 검증 및 결과 일반화 도움.
EDA와의 관계: 서로 보완적.
- 일반적으로 EDA 통해 데이터 이해 및 가설 생성 후,
- CDA 사용하여 가설 검증.

인공지능 (Artificial Intelligence, AI)

정의: 인간이나 동물의 지능을 컴퓨터나 시스템 등으로 만든 것.
지능: 다양한 환경에서 목적 달성 가능한 행위자의 능력.
명명: 1956년 미국 다트머스 워크숍에서 존 매카시가 명명.
핵심: 반드시 인간처럼 생각해야 하는 것은 아님. 합리적 행동 중요.
- 인간처럼 생각/행동하는 기계 vs. 합리적으로 생각/행동하는 기계 (후자가 현재 AI 흐름에 더 가까움).

머신러닝 (Machine Learning, ML)

과거 AI: 논리, 계획, 지식 기반.
현재 AI: 데이터로부터 통계적 패턴 학습 (이것이 머신러닝).
딥러닝(Deep Learning): 머신러닝의 한 분야/일종.
(관계도) AI > 머신러닝 > 딥러닝 (점점 특화된 분야)

머신러닝 결과 해석

과제: 머신러닝 모형 다수가 예측 과정 설명 어려운 블랙박스 모형임.
한계: 일반적 설명 가능하나, 개별 사례 예측 이유 파악 어려움.
중요 이슈: 인공지능 설명가능성(explainability) 현재 매우 중요함.
해석(Interpretation): 모형 예측 이해/설명 과정, 방법.
설명(Explanation): 개별 예측 대해 사람이 이해 가능하도록 풀어 놓은 것.
XAI(eXplainable AI): 설명가능한 인공지능.

머신러닝과 통계의 차이

대체로 비슷하나, 경향성에 차이 존재함.

구분	통계 (Statistics)	머신러닝 (Machine Learning)
목적	데이터 패턴 찾아 추론/결론 도출	데이터 패턴 학습하여 예측/분류 등 작업 수행
데이터	변수 수, 데이터 크기 적음	변수 수, 데이터 크기 많음
모델	가설 명시적, 해석 가능한 모델 선호	작업 수행 우수한 모델 선호 (블랙박스 가능)
설명가능성	대체로 높음	모델 따라 다르나, 상대적으로 해석 어려운 편
응용 분야	과학 연구, 의사결정, 의료 등	로봇, 자동화, 추천 시스템 등

데이터 마이닝 (Data Mining)

정의: 대규모 데이터셋 내 숨겨진 패턴, 추세, 관계 발견 과정.
- 마이닝(Mining): 광산업에서 유래 (데이터 속 가치 채굴).
목표: 데이터로부터 가치 있는 통찰력/지식 추출. 더 나은 의사결정, 예측, 추천 가능하게 함.
기술: 머신 러닝, 통계 분석, 데이터베이스 시스템 등 활용.
데이터 분석과의 관계: 데이터 마이닝은 데이터 분석의 한 부분 또는 연관 분야.

빅 데이터 (Big Data)

정의: 대량의 복잡한 데이터로 구성된 데이터셋.
특징: 전통적 데이터 처리 방식으로는 처리, 저장, 분석 어려울 정도로 규모 크고 복잡함.
3V (주요 특징):
1. 볼륨(Volume): 데이터 양 엄청 많음 (TB, PB 이상). 기존 시스템 처리 어려움.
2. 속도(Velocity): 매우 빠른 속도로 데이터 생성/처리 필요. 실시간 분석/대응 요구. (예: 소셜 미디어, IoT 센서, 웹 로그).
3. 다양성(Variety): 다양한 형태/형식 데이터 포함.
  - 정형 데이터: 표, DB 등 잘 정리된 데이터.
  - 비정형 데이터: 텍스트, 이미지, 비디오, 오디오 등 구조화되지 않은 데이터.

구글 트렌드로 본 검색량 변화 (2004~2023)

추세: data mining → big data → machine learning 순으로 관심도(검색량) 증가.
data mining 시대: 대량 데이터에서 인사이트 도출 중시.
big data 시대: 데이터 규모 감당 어려움. 데이터 처리/관리 자체가 관건.
machine learning 시대: 데이터 기반 자동화(예측, 분류 등) 중시.

퀴즈

통계와 관련된 분야 및 주제들
탐색적 데이터 분석 (Exploratory Data Analysis, EDA)
확인적 데이터 분석 (Confirmatory Data Analysis, CDA)
인공지능 (Artificial Intelligence, AI)
머신러닝 (Machine Learning, ML)
머신러닝 결과 해석
머신러닝과 통계의 차이
데이터 마이닝 (Data Mining)
빅 데이터 (Big Data)
구글 트렌드로 본 검색량 변화 (2004~2023)
퀴즈