머신러닝 소개

통계적/수학적 기법을 이용해 데이터로부터 패턴을 추출하는 인공지능 기법
최근 컴퓨터 비전에는 "딥러닝" 기법이 중심을 이루고 있음
학습의 형태:
- 지도 학습: x와 y가 짝지어진 형태의 데이터에서 관계를 학습
- 비지도학습: 데이터의 내재적 구조를 학습
- 강화학습: 환경과 상호작용하여 가장 많은 보상을 받는 행동을 학습

지도 학습

입력(x)과 출력(y)이 짝지어진 데이터셋이 있을 때
x로부터 y를 예측하는 함수를 학습
아직 y가 관찰되지 않은 x에 적용하여 y를 예측
머신 러닝의 90% 이상을 차지하는 학습 형태
예시:
- 사고 차량 사진(x)  예상 수리비(y)
- 주택 특성(x)  예상 가격(y)
- 부품 사진(x)  불량 여부(y)
- 채무자 특성(x)  상환 여부(y)

지도학습의 대표적인 방식

가중치 방식
- 입력된 여러 가지 특성에 각각 다른 가중치를 부여, 종합적인 하나의 점수를 도출
- 간단히 말해 대학입시 방식(국어 100%, 수학 200%, 영어 50% …)
- 선형 모형, 로지스틱 회귀분석, 딥러닝 등
의사결정나무 방식
- 한 번에 한 가지 특성을 기준으로 분기하는 것을 반복하여 마지막에 최종 예측
- 간단히 말해 스무고개 방식
- CART, Random Forest, Gradient Boosting Tree 등

로지스틱 회귀분석

데이터 불러오기

import pandas as pd
cc = pd.read_excel('cancer.xlsx')
cc.head()

준비

x = cc.drop(columns=['diagnosis'])
y = cc['diagnosis'].map({'M':1, 'B':0})

훈련 데이터와 테스트 데이터로 분할

from sklearn.model_selection import train_test_split
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=42)

훈련

from sklearn.linear_model import LogisticRegression
lr = LogisticRegression(max_iter=1000)
lr.fit(x_train, y_train)

특징별 가중치(각각의 특징에 가중치를 곱한 총점을 기준으로 분류)

lr.coef_

훈련 데이터의 정확도

lr.score(x_train, y_train)

테스트 데이터의 정확도

lr.score(x_test, y_test)

예측

lr.predict(x_test)

의사결정나무

훈련

from sklearn.tree import DecisionTreeClassifier
dt = DecisionTreeClassifier(min_samples_leaf=10, random_state=42)
dt.fit(x_train, y_train)

결정 과정 시각화

from sklearn.tree import plot_tree
import matplotlib.pyplot as plt
plt.figure(figsize=(20,10)) # 그림 크기 가로 20, 세로 10
plot_tree(model, fontsize=10, filled=True) # 글꼴 크기 10, 색칠
plt.savefig("tree.png") # 그림 저장

어떤 방법을 쓸 것인가?

공짜 점심은 없다(no free lunch) 정리: 모든 머신러닝 방법의 성능은 평균적으로 똑같다
- 즉, 모든 경우에 우수한 머신러닝 방법은 없음
데이터의 특성에 따라 더 잘 작동하는 방법이 다름
- 딥러닝은 주로 자연어, 이미지 등 비정형 데이터에 강점
- 의사결정나무는 주로 표 형태의 데이터에 강점
데이터의 특성을 어느 정도 짐작은 할 수 있지만 미리 확인할 방법은 없음
여러 가지 방법을 시도해보고 가장 성능이 좋은 방법이 그 데이터에 맞는 방법

퀴즈

사용자 정보 입력

퀴즈를 시작하기 전에 이름과 소속을 입력해주세요.

이름

별명

소속

지도 학습​

지도학습의 대표적인 방식​

로지스틱 회귀분석​

의사결정나무​

어떤 방법을 쓸 것인가?​

퀴즈​

Q&A​

지도 학습

지도학습의 대표적인 방식

로지스틱 회귀분석

의사결정나무

어떤 방법을 쓸 것인가?

퀴즈

Q&A