기본 RL 내용

(버전 기록)

2023-04-13. 초안

===========================

==========내용==========

===========================

. RL이 무엇인가요?

. 멀티암 도적

. MDP(마르코프 결정 프로세스)

. 동적 프로그래밍

. MC법(몬테카를로법)

. TD 학습(시간차 학습, TD 학습)

. On-Policy 대 Off-Policy

. SARSA 및 Q-러닝

. 함수 근사

. 정책 기울기

. 배우 평론가

. 모델 기반 RL 및 모델 없는 RL