(버전 기록)
2023-04-13. 초안
===========================
==========내용==========
===========================
. RL이 무엇인가요?
. 멀티암 도적
. MDP(마르코프 결정 프로세스)
. 동적 프로그래밍
. MC법(몬테카를로법)
. TD 학습(시간차 학습, TD 학습)
. On-Policy 대 Off-Policy
. SARSA 및 Q-러닝
. 함수 근사
. 정책 기울기
. 배우 평론가
. 모델 기반 RL 및 모델 없는 RL