'MDP' 태그의 글 목록

MDP 2

바닥부터 배우는 강화 학습 | 05. MDP를 모를 때 밸류 평가하기

'바닥부터 배우는 강화 학습' 5장에는 MDP를 모르고 있는 경우 밸류를 평가하는 방법에 대해서 설명하고 있습니다. 아래 내용은 공부하면서 핵심 내용을 정리한 것입니다. 참고자료 도서: 바닥부터 배우는 강화 학습 / 5장 MDP를 모를 때 밸류 평가하기 동영상: https://www.youtube.com/watch?v=47FyZtBRglI&list=PLpRS2w0xWHTcTZyyX8LMmtbcMXpd3s4TU&index=4 모델 프리 보상 함수 $r_s^a$와 전이 확률 $P_{ss'}^a$를 모르는 상황 '모델을 모른다', 'MDP를 모른다', '모델 프리다'는 같은 의미 5.1 몬테카를로 학습 동전의 앞면 뒷면이 나올 확률을 모르더라도 동전을 여러 번 던져보면 확률을 가늠할 수 있음 동전을 여러 번 ..

강화 학습/바닥부터 배우는 강화 학습 2022.11.29

바닥부터 배우는 강화 학습 | 04. MDP를 알 때의 플래닝

'바닥부터 배우는 강화 학습' 4장에는 MDP를 알고 있는 경우 정책을 발전시키는 플래닝 방법에 대해서 설명하고 있습니다. 아래 내용은 공부하면서 핵심 내용을 정리한 것입니다. 참고자료 도서: 바닥부터 배우는 강화 학습 / 4장 MDP를 알 때의 플래닝 동영상: https://www.youtube.com/watch?v=rrTxOkbHj-M&t=29s 전제조건 다음 두 조건이 만족하는 상황 ◦ 작은 문제 ◦ MDP를 알 때 플래닝(planning): MDP에 대한 모든 정보를 알 때 이를 이용하여 정책을 개선해 나가는 과정 4.1 밸류 평가하기 - 반복적 정책 평가 반복적 정책 평가(Iterative policy evaluation) 방법을 통해 각 상태 $s$에 대한 가치 함수 $v(s)$ 계산 가능 위..

강화 학습/바닥부터 배우는 강화 학습 2022.11.14

강화 학습 기반으로 문제를 해결하는 방법에 대한 공부를 하고 있습니다.

Reinforcement Learning, Markov Reward Process, MDP, 강화학습, Markov Process, Button, Markov Decision Process, Q러닝, interrupt, CubeIED, uart, LED, STM32, 몬테카를로, 강화 학습, CS234, NUCLEO-F103RB, Actor-Critic, 바닥부터 배우는 강화 학습, ros,

Today :
Yesterday :

일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

with-RL

MDP 2

티스토리툴바