'강화학습' 태그의 글 목록

강화학습 6

'바닥부터 배우는 강화 학습' 10장에는 MCTS(Monte Carlo Tree Search)의 개념과 알파고에 대해서 설명하고 있습니다. 아래 내용은 공부하면서 핵심 내용을 정리한 것입니다. 참고자료 도서: 바닥부터 배우는 강화 학습 / 10장 알파고와 MCTS 10.1 알파고 알파고는 2016년 3월에 이세돌과 바둑을 뒀던 버전 학습(learning) 단계 ◦ 이세돌을 만나기 전에 이루어지는 과정 ◦ 이후 단계에서 사용될 재료들을 미리 만들어 두는 과정 플래닝(decision-time planning) ◦ 이세돌과의 대국 도중에 실시간으로 이루어지는 과정 ◦ 알파고 차례가 되었을 때 어디에 바둑알을 놓을지 고민하는 과정 ◦ 알파고는 실시간 플래닝 알고리즘으로 MCTS(Monte Carlo Tree S..

강화 학습/바닥부터 배우는 강화 학습 2023.03.22

바닥부터 배우는 강화 학습 | 09. 정책 기반 에이전트

'바닥부터 배우는 강화 학습' 9장에는 정책 기반 에이전트를 학습하는 방법에 대해서 설명하고 있습니다. 아래 내용은 공부하면서 핵심 내용을 정리한 것입니다. 참고자료 도서: 바닥부터 배우는 강화 학습 / 9장 정책 기반 에이전트 9.1 Policy Gradient 가치 기반 에이전트가 액션을 선택하는 방식은 결정론적(deterministic): 모든 상태 $s$에 대해 각 상태에서 선택하는 액션이 변하지 않음 정책 기반 에이전트는 확률적 정책(stochastic policy): $\pi(s, a) = \mathbb{P}[a|s]$ 정책 기반 에이전트는 가치 기반 에이전트에 비해 좀 더 유연한 정책을 가질 수 있음 액션 공간(action space)이 연속적(continuous)인 경우 (예, 0에서 1 ..

강화 학습/바닥부터 배우는 강화 학습 2023.01.28

바닥부터 배우는 강화 학습 | 08. 가치 기반 에이전트

'바닥부터 배우는 강화 학습' 8장에는 가치 기반 에이전트를 학습하는 방법에 대해서 설명하고 있습니다. 아래 내용은 공부하면서 핵심 내용을 정리한 것입니다. 참고자료 도서: 바닥부터 배우는 강화 학습 / 8장 가치 기반 에이전트 이번 챕터에서 다룰 문제 ◦ 모델 프리 ◦ 상태 공간 (state space)과 액션 공간(action space)이 매우 커서 테이블에 담지 못할 상황 강화 학습에 뉴럴넷을 접목시키는 접근법 2가지 ◦ 함수 $v_{\pi}(s)$나 $q_{\pi}(s)$를 뉴럴넷으로 표현하는 방식 ◦ 정책 함수 $\pi(a|s)$를 뉴럴넷으로 표현하는 방식 가치 기반(value-based): 가치 함수에 근거하여 액션을 선택 모델-프리 상황에서는 $v(s)$만 가지고 액션을 정할 수 없기 때문..

강화 학습/바닥부터 배우는 강화 학습 2023.01.21

바닥부터 배우는 강화 학습 | 07. Deep RL 첫 걸음

'바닥부터 배우는 강화 학습' 7장에는 무수히 많은 MDP를 풀기 위해 딥러닝을 강화학습에 적용하는 방법에 대해서 설명하고 있습니다. 아래 내용은 공부하면서 핵심 내용을 정리한 것입니다. 참고자료 도서: 바닥부터 배우는 강화 학습 / 7장 Deep RL 첫 걸음 7.1 함수를 활용한 근사 바둑의 경우는 바둑판 $19 \times 19$ 격자의 모든 빈칸이 바둑알을 놓을 수 있는 후보지가 되고 그로 인한 상태의 수가 너무 많음 ◦ 체스: $10^{47}$ ◦ 바둑: $10^{170}$ 연속적인 상태 공간(continuous state space): 바둑이나 체스처럼 이산적(discrete)인 형식이 아닌 속도와 같이 연속적인 값을 가질 수 있음. 상태의 개수가 너무 많거나 상태 공간이 연속적이면 ◦ 상태 ..

강화 학습/바닥부터 배우는 강화 학습 2023.01.17

바닥부터 배우는 강화 학습 | 05. MDP를 모를 때 밸류 평가하기

'바닥부터 배우는 강화 학습' 5장에는 MDP를 모르고 있는 경우 밸류를 평가하는 방법에 대해서 설명하고 있습니다. 아래 내용은 공부하면서 핵심 내용을 정리한 것입니다. 참고자료 도서: 바닥부터 배우는 강화 학습 / 5장 MDP를 모를 때 밸류 평가하기 동영상: https://www.youtube.com/watch?v=47FyZtBRglI&list=PLpRS2w0xWHTcTZyyX8LMmtbcMXpd3s4TU&index=4 모델 프리 보상 함수 $r_s^a$와 전이 확률 $P_{ss'}^a$를 모르는 상황 '모델을 모른다', 'MDP를 모른다', '모델 프리다'는 같은 의미 5.1 몬테카를로 학습 동전의 앞면 뒷면이 나올 확률을 모르더라도 동전을 여러 번 던져보면 확률을 가늠할 수 있음 동전을 여러 번 ..

강화 학습/바닥부터 배우는 강화 학습 2022.11.29

바닥부터 배우는 강화 학습 | 04. MDP를 알 때의 플래닝

'바닥부터 배우는 강화 학습' 4장에는 MDP를 알고 있는 경우 정책을 발전시키는 플래닝 방법에 대해서 설명하고 있습니다. 아래 내용은 공부하면서 핵심 내용을 정리한 것입니다. 참고자료 도서: 바닥부터 배우는 강화 학습 / 4장 MDP를 알 때의 플래닝 동영상: https://www.youtube.com/watch?v=rrTxOkbHj-M&t=29s 전제조건 다음 두 조건이 만족하는 상황 ◦ 작은 문제 ◦ MDP를 알 때 플래닝(planning): MDP에 대한 모든 정보를 알 때 이를 이용하여 정책을 개선해 나가는 과정 4.1 밸류 평가하기 - 반복적 정책 평가 반복적 정책 평가(Iterative policy evaluation) 방법을 통해 각 상태 $s$에 대한 가치 함수 $v(s)$ 계산 가능 위..

강화 학습/바닥부터 배우는 강화 학습 2022.11.14

강화 학습 기반으로 문제를 해결하는 방법에 대한 공부를 하고 있습니다.

강화 학습, uart, Markov Decision Process, MDP, LED, Button, Reinforcement Learning, interrupt, Q러닝, 몬테카를로, ros, Actor-Critic, CS234, NUCLEO-F103RB, 강화학습, Markov Reward Process, CubeIED, STM32, 바닥부터 배우는 강화 학습, Markov Process,

Today :
Yesterday :

with-RL

강화학습 6

티스토리툴바

« 2025/07 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31