데이터 분석의 종류와 관련 분야
통계와 관련된 분야 및 주제들
- 탐색적/확인적 데이터 분석 (EDA / CDA)
- 머신러닝 (Machine Learning)
- 빅데이터 (Big Data)
- 데이터 마이닝 (Data Mining)
탐색적 데이터 분석 (Exploratory Data Analysis, EDA)
- 초점: 데이터에 대한 초기 이해 도움.
- 목표: 데이터 구조, 패턴, 이상치, 변수 간 관계 파악.
- 방법: 주로 시각화, 기술 통계 사용. 데이터 요약 및 분석.
- 결과: 가설 생성, 문제 해결 위한 통찰력 도출.
- 기여: 정형화되지 않은 질문 답변 도움, 데이터 깊이 이해 기여.
확인적 데이터 분석 (Confirmatory Data Analysis, CDA)
- 초점: 이미 수립된 가설이나 이론 검증.
- 목표: 가설 통계적 확인, 결과 일반화 가능성 평가.
- 방법: 추론 통계, 회귀 분석, 가설 검정 등 사용. 가설 타당성 평가.
- 기여: 연구자의 가설 검증 및 결과 일반화 도움.
- EDA와의 관계: 서로 보완적.
- 일반적으로 EDA 통해 데이터 이해 및 가설 생성 후,
- CDA 사용하여 가설 검증.
인공지능 (Artificial Intelligence, AI)
- 정의: 인간이나 동물의 지능을 컴퓨터나 시스템 등으로 만든 것.
- 지능: 다양한 환경에서 목적 달성 가능한 행위자의 능력.
- 명명: 1956년 미국 다트머스 워크숍에서 존 매카시가 명명.
- 핵심: 반드시 인간처럼 생각해야 하는 것은 아님. 합리적 행동 중요.
- 인간처럼 생각/행동하는 기계 vs. 합리적으로 생각/행동하는 기계 (후자가 현재 AI 흐름에 더 가까움).
머신러닝 (Machine Learning, ML)
- 과거 AI: 논리, 계획, 지식 기반.
- 현재 AI: 데이터로부터 통계적 패턴 학습 (이것이 머신러닝).
- 딥러닝(Deep Learning): 머신러닝의 한 분야/일종.
- (관계도) AI > 머신러닝 > 딥러닝 (점점 특화된 분야)
머신러닝 결과 해석
- 과제: 머신러닝 모형 다수가 예측 과정 설명 어려운 블랙박스 모형임.
- 한계: 일반적 설명 가능하나, 개별 사례 예측 이유 파악 어려움.
- 중요 이슈: 인공지능 설명가능성(explainability) 현재 매우 중요함.
- 해석(Interpretation): 모형 예측 이해/설명 과정, 방법.
- 설명(Explanation): 개별 예측 대해 사람이 이해 가능하도록 풀어 놓은 것.
- XAI(eXplainable AI): 설명가능한 인공지능.
머신러닝과 통계의 차이
- 대체로 비슷하나, 경향성에 차이 존재함.
구분 | 통계 (Statistics) | 머신러닝 (Machine Learning) |
---|---|---|
목적 | 데이터 패턴 찾아 추론/결론 도출 | 데이터 패턴 학습하여 예측/분류 등 작업 수행 |
데이터 | 변수 수, 데이터 크기 적음 | 변수 수, 데이터 크기 많음 |
모델 | 가설 명시적, 해석 가능한 모델 선호 | 작업 수행 우수한 모델 선호 (블랙박스 가능) |
설명가능성 | 대체로 높음 | 모델 따라 다르나, 상대적으로 해석 어려운 편 |
응용 분야 | 과학 연구, 의사결정, 의료 등 | 로봇, 자동화, 추천 시스템 등 |
데이터 마이닝 (Data Mining)
- 정의: 대규모 데이터셋 내 숨겨진 패턴, 추세, 관계 발견 과정.
- 마이닝(Mining): 광산업에서 유래 (데이터 속 가치 채굴).
- 목표: 데이터로부터 가치 있는 통찰력/지식 추출. 더 나은 의사결정, 예측, 추천 가능하게 함.
- 기술: 머신 러닝, 통계 분석, 데이터베이스 시스템 등 활용.
- 데이터 분석과의 관계: 데이터 마이닝 은 데이터 분석의 한 부분 또는 연관 분야.
빅 데이터 (Big Data)
- 정의: 대량의 복잡한 데이터로 구성된 데이터셋.
- 특징: 전통적 데이터 처리 방식으로는 처리, 저장, 분석 어려울 정도로 규모 크고 복잡함.
- 3V (주요 특징):
- 볼륨(Volume): 데이터 양 엄청 많음 (TB, PB 이상). 기존 시스템 처리 어려움.
- 속도(Velocity): 매우 빠른 속도로 데이터 생성/처리 필요. 실시간 분석/대응 요구. (예: 소셜 미디어, IoT 센서, 웹 로그).
- 다양성(Variety): 다양한 형태/형식 데이터 포함.
- 정형 데이터: 표, DB 등 잘 정리된 데이터.
- 비정형 데이터: 텍스트, 이미지, 비디오, 오디오 등 구조화되지 않은 데이터.
구글 트렌드로 본 검색량 변화 (2004~2023)
- 추세: data mining → big data → machine learning 순으로 관심도(검색량) 증가.
- data mining 시대: 대량 데이터에서 인사이트 도출 중시.
- big data 시대: 데이터