강화 학습과 딥러닝
강화 학습 Reinforcement Learning
- 행위자는 환경과 상호작용
- 행위자의 행동(A)에 따라 보상이 주어짐
- 수익(G): 보상을 장기간에 걸쳐 누적한 것
- 행위자는 현재 상태(S)에서 앞으로 수익이 가장 큰 행동을 내는 정책(π)을 찾아야 함
강화 학습 예시
- 게임 인공지능: 게임 환경에서 스스로 학습하여 최적의 전략을 수행(예: AlphaGo)
- 로봇 제어: 로봇이 다양한 환경에서 최적의 행동을 학습
- 자율 주행: 자율 주행 차량이 주행 상황에 맞춰 최적의 경로를 선택
지도 학습과 강화 학습의 차이
지도학습 | 강화학습 |
---|---|
X에서 Y를 예측하는 문제 | X에서 가장 보상이 큰 행동을 찾는 문제 (Y는 예측하지 않을 수도 있음) |
Y에 대한 예측 오차를 줄이는 것이 목표 | 행동으로 인한 보상을 최대화하는 것이 목표 |
X와 Y가 모두 있는 데이터가 필요 |