MDP 2

바닥부터 배우는 강화 학습 | 05. MDP를 모를 때 밸류 평가하기

'바닥부터 배우는 강화 학습' 5장에는 MDP를 모르고 있는 경우 밸류를 평가하는 방법에 대해서 설명하고 있습니다. 아래 내용은 공부하면서 핵심 내용을 정리한 것입니다. 참고자료 도서: 바닥부터 배우는 강화 학습 / 5장 MDP를 모를 때 밸류 평가하기 동영상: https://www.youtube.com/watch?v=47FyZtBRglI&list=PLpRS2w0xWHTcTZyyX8LMmtbcMXpd3s4TU&index=4 모델 프리 보상 함수 $r_s^a$와 전이 확률 $P_{ss'}^a$를 모르는 상황 '모델을 모른다', 'MDP를 모른다', '모델 프리다'는 같은 의미 5.1 몬테카를로 학습 동전의 앞면 뒷면이 나올 확률을 모르더라도 동전을 여러 번 던져보면 확률을 가늠할 수 있음 동전을 여러 번 ..

바닥부터 배우는 강화 학습 | 04. MDP를 알 때의 플래닝

'바닥부터 배우는 강화 학습' 4장에는 MDP를 알고 있는 경우 정책을 발전시키는 플래닝 방법에 대해서 설명하고 있습니다. 아래 내용은 공부하면서 핵심 내용을 정리한 것입니다. 참고자료 도서: 바닥부터 배우는 강화 학습 / 4장 MDP를 알 때의 플래닝 동영상: https://www.youtube.com/watch?v=rrTxOkbHj-M&t=29s 전제조건 다음 두 조건이 만족하는 상황 ◦ 작은 문제 ◦ MDP를 알 때 플래닝(planning): MDP에 대한 모든 정보를 알 때 이를 이용하여 정책을 개선해 나가는 과정 4.1 밸류 평가하기 - 반복적 정책 평가 반복적 정책 평가(Iterative policy evaluation) 방법을 통해 각 상태 $s$에 대한 가치 함수 $v(s)$ 계산 가능 위..