'강화 학습' 태그의 글 목록

Processing math: 100%

강화 학습 3

'바닥부터 배우는 강화 학습' 3장에는 밸류를 구할 수 있는 벨만 방정식과 벨만 최적 방정식에 대해서 설명하고 있습니다. 아래 내용은 공부하면서 핵심 내용을 정리한 것입니다. 참고자료 도서: 바닥부터 배우는 강화 학습 / 3장 벨만 방정식 동영상: https://www.youtube.com/watch?v=NMesGSXr8H4 (후반부) 벨만 방정식 밸류를 계산할 때 벨만 방정식을 이용해서 구함 벨만 방정식은 시점 $t$ 에서의 밸류와 시점 $t+1$ 에서의 밸류 사이의 관계를 다루며 또 가치 함수와 정책 함수 사이의 관계도 다룸 재귀 함수 벨만 방정식은 기본적으로 재귀적 관계에 대한 식 재귀 함수는 자기 자신을 호출하는 함수 피보나치수열(0, 1, 1, 2, 3, 5, 8, 13, 21, ...)의 재귀적인..

강화 학습/바닥부터 배우는 강화 학습 2022.11.04

바닥부터 배우는 강화 학습 | 02. 마르코프 결정 프로세스

'바닥부터 배우는 강화 학습' 2장에는 중요한 기본 개념들을 설명하고 있습니다. 예전에 혼란스러웠던 내용인데 명쾌하게 잘 설명이 돼있습니다. 아래 내용은 공부하면서 핵심 내용을 정리한 것입니다. 참고자료 도서: 바닥부터 배우는 강화 학습 / 2장 마르코프 결정 프로세스 동영상: https://www.youtube.com/watch?v=NMesGSXr8H4 2.1 마르코프 프로세스 (Markov Process) ◈ 아이가 잠이 드는 마르코프 프로세스 위 그림의 예는 상태의 종류는 총 5가지, 매 1분마다 다음 상태로 상태 전이(state transition) ◦ $s_0$ : 누워있는 상태. 시작 상태 ◦ $s_1$ : 일어나서 노는 상태 ◦ $s_2$ : 눈을 감은 상태 ◦ $s_3$ : 서서히 잠이 오는 상태..

강화 학습/바닥부터 배우는 강화 학습 2022.11.04

바닥부터 배우는 강화 학습 | 01. 강화 학습이란

강화 학습 공부를 다시 시작합니다. 예전에 관심 있게 봤던 팡요랩의 저가가 쓰신 '바닥부터 배우는 강화 학습'을 첫 번째 공부 교재로 사용하려고 합니다. 아래 내용은 공부하면서 핵심 내용을 정리한 것입니다. 참고자료 도서: 바닥부터 배우는 강화 학습 / 1장 강화 학습이란 동영상: https://www.youtube.com/watch?v=NMesGSXr8H4 1.1 지도 학습과 강화 학습 ◈ 기계 학습의 분류 기계학습 (machine learning) ◦ 강화 학습(reinforcement learning): 지도자의 도움 없이 혼자서 수많은 시행착오(Trial and Error)를 거치면서 학습하는 방법 ◦ 지도 학습(supervised learning): 아버지가 아들에게 자전거 타는 방법을 가르쳐 ..

강화 학습/바닥부터 배우는 강화 학습 2022.11.04

강화 학습 기반으로 문제를 해결하는 방법에 대한 공부를 하고 있습니다.

Markov Process, STM32, Button, LED, NUCLEO-F103RB, Markov Decision Process, CS234, 몬테카를로, Actor-Critic, Reinforcement Learning, ros, Q러닝, interrupt, CubeIED, 바닥부터 배우는 강화 학습, MDP, 강화 학습, 강화학습, uart, Markov Reward Process,

Today :
Yesterday :

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

with-RL

강화 학습 3

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역