'Q러닝' 태그의 글 목록

Q러닝 2

'바닥부터 배우는 강화 학습' 8장에는 가치 기반 에이전트를 학습하는 방법에 대해서 설명하고 있습니다. 아래 내용은 공부하면서 핵심 내용을 정리한 것입니다. 참고자료 도서: 바닥부터 배우는 강화 학습 / 8장 가치 기반 에이전트 이번 챕터에서 다룰 문제 ◦ 모델 프리 ◦ 상태 공간 (state space)과 액션 공간(action space)이 매우 커서 테이블에 담지 못할 상황 강화 학습에 뉴럴넷을 접목시키는 접근법 2가지 ◦ 함수 $v_{\pi}(s)$나 $q_{\pi}(s)$를 뉴럴넷으로 표현하는 방식 ◦ 정책 함수 $\pi(a|s)$를 뉴럴넷으로 표현하는 방식 가치 기반(value-based): 가치 함수에 근거하여 액션을 선택 모델-프리 상황에서는 $v(s)$만 가지고 액션을 정할 수 없기 때문..

강화 학습/바닥부터 배우는 강화 학습 2023.01.21

바닥부터 배우는 강화 학습 | 06. MDP를 모를 때 최고의 정책 찾기

'바닥부터 배우는 강화 학습' 6장에는 MDP를 모르고 있는 경우 최고의 정책을 찾는 방법에 대해서 설명하고 있습니다. 아래 내용은 공부하면서 핵심 내용을 정리한 것입니다. 참고자료 도서: 바닥부터 배우는 강화 학습 / 6장 MDP를 모를 때 최고의 정책 찾기 동영상: https://www.youtube.com/watch?v=2h-FD3e1YgQ&list=PLpRS2w0xWHTcTZyyX8LMmtbcMXpd3s4TU&index=5 6.1 몬테카를로 컨트롤 ◈ 정책 이터레이션을 그대로 사용할 수 없는 이유 첫 번째: 반복적인 정책평가를 사용할 수 없음 모델 프리 상황에서는 보상함수 $r_s^a$와 전이확률 $P_{ss'}^a$을 모르기 때문에 아래 벨만 기대 방정식을 사용할 수 없음 $$v_{\pi}(s)..

강화 학습/바닥부터 배우는 강화 학습 2023.01.05

강화 학습 기반으로 문제를 해결하는 방법에 대한 공부를 하고 있습니다.

CS234, uart, CubeIED, STM32, 강화 학습, Reinforcement Learning, Actor-Critic, Button, LED, MDP, 몬테카를로, 바닥부터 배우는 강화 학습, ros, Markov Reward Process, Markov Process, 강화학습, Markov Decision Process, Q러닝, interrupt, NUCLEO-F103RB,

Today :
Yesterday :

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

with-RL

Q러닝 2

티스토리툴바