강화 학습과 딥러닝
강화 학습 Reinforcement Learning
- 행위자는 환경과 상호작용
- 행위자의 행동(A)에 따라 보상이 주어짐
- 수익(G): 보상을 장기간에 걸쳐 누적한 것
- 행위자는 현재 상태(S)에서 앞으로 수익이 가장 큰 행동을 내는 정책(π)을 찾아야 함
강화 학습 예시
- 게임 인공지능: 게임 환경에서 스스로 학습하여 최적의 전략을 수행(예: AlphaGo)
- 로봇 제어: 로봇이 다양한 환경에서 최적의 행동을 학습
- 자율 주행: 자율 주행 차량이 주행 상황에 맞춰 최적의 경로를 선택
지도 학습과 강화 학습의 차이
| 지도학습 | 강화학습 |
|---|---|
| X에서 Y를 예측하는 문제 | X에서 가장 보상이 큰 행동을 찾는 문제 (Y는 예측하지 않을 수도 있음) |
| Y에 대한 예측 오차를 줄이는 것이 목표 | 행동으로 인한 보상을 최대화하는 것이 목표 |
| X와 Y가 모두 있는 데이터가 필요 | 데이터 대신 직접 시행 착오 |
| 바둑) 현재 상황(X)에서 프로 기사들의 다음 수(Y)를 학습 | 바둑) 현재 판세(X)에서 다음 수(A)를 시행착오를 통해 학습 |
| 투자) 기업의 정보(X)에서 주가(Y)를 학습 | 투자) 기업의 정보(X)에서 매수/매도/보유(A)를 시행착오를 통해 학습 |
강화학습의 현업 적용에서 이슈
- 강화학습은 지도학습과 달리 레이블이 있는 과거 데이터를 사용하기 어려움
- 행위자가 직접 시행착오를 통해 보상을 최대화하는 정책을 발견해야 함
- 현실에서 시행착오를 할 경우 시간이 오래 걸리고 비용이 많이 들기 때문에 시뮬레이션이 필요
- 바둑이 빨리 정복된 이유: 가상의 환경 내에서 100% 실행 가능하기 때문
- 보상 함수를 잘못 정의할 경우 의도하지 않은 방향의 행동을 할 수 있음
- 예: 테트리스를 "오래" 플레이하는 것에 따라 보상을 할 경우 게임을 일시정지 시키고 플레이하지 않는 방법을 발견
뉴런 neuron
- 동물의 신경계를 구성하는 신경 세포
- 흥분하면 전기 신호가 발생
- 신경 전달 물질을 사용하여 세포 간 통신