with-RL

  • 홈
  • 태그
  • 방명록

Actor-Critic 1

바닥부터 배우는 강화 학습 | 09. 정책 기반 에이전트

'바닥부터 배우는 강화 학습' 9장에는 정책 기반 에이전트를 학습하는 방법에 대해서 설명하고 있습니다. 아래 내용은 공부하면서 핵심 내용을 정리한 것입니다. 참고자료 도서: 바닥부터 배우는 강화 학습 / 9장 정책 기반 에이전트 9.1 Policy Gradient 가치 기반 에이전트가 액션을 선택하는 방식은 결정론적(deterministic): 모든 상태 $s$에 대해 각 상태에서 선택하는 액션이 변하지 않음 정책 기반 에이전트는 확률적 정책(stochastic policy): $\pi(s, a) = \mathbb{P}[a|s]$ 정책 기반 에이전트는 가치 기반 에이전트에 비해 좀 더 유연한 정책을 가질 수 있음 액션 공간(action space)이 연속적(continuous)인 경우 (예, 0에서 1 ..

강화 학습/바닥부터 배우는 강화 학습 2023.01.28
이전
1
다음
더보기
프로필사진

강화 학습 기반으로 문제를 해결하는 방법에 대한 공부를 하고 있습니다.

  • 분류 전체보기 (53)
    • 강화 학습 (11)
      • CS234 (0)
      • 바닥부터 배우는 강화 학습 (10)
      • ML-Agent (1)
    • 로봇 (34)
      • ROS (21)
      • STM32 (9)
      • ESP32 (2)
      • 라즈베리파이 (2)
    • 프로그램 (3)
      • Java (3)
    • 환경 (5)

Tag

Q러닝, Reinforcement Learning, CubeIED, Actor-Critic, Markov Process, 몬테카를로, CS234, LED, uart, interrupt, 바닥부터 배우는 강화 학습, ros, 강화학습, Button, 강화 학습, STM32, NUCLEO-F103RB, MDP, Markov Decision Process, Markov Reward Process,

최근글과 인기글

  • 최근글
  • 인기글

최근댓글

공지사항

페이스북 트위터 플러그인

  • Facebook
  • Twitter

Archives

Calendar

«   2025/05   »
일 월 화 수 목 금 토
1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30 31

방문자수Total

  • Today :
  • Yesterday :

Copyright © Kakao Corp. All rights reserved.

티스토리툴바