with-RL

  • 홈
  • 태그
  • 방명록

Markov Decision Process 1

바닥부터 배우는 강화 학습 | 02. 마르코프 결정 프로세스

'바닥부터 배우는 강화 학습' 2장에는 중요한 기본 개념들을 설명하고 있습니다. 예전에 혼란스러웠던 내용인데 명쾌하게 잘 설명이 돼있습니다. 아래 내용은 공부하면서 핵심 내용을 정리한 것입니다. 참고자료 도서: 바닥부터 배우는 강화 학습 / 2장 마르코프 결정 프로세스 동영상: https://www.youtube.com/watch?v=NMesGSXr8H4 2.1 마르코프 프로세스 (Markov Process) ◈ 아이가 잠이 드는 마르코프 프로세스 위 그림의 예는 상태의 종류는 총 5가지, 매 1분마다 다음 상태로 상태 전이(state transition) ◦ $s_0$: 누워있는 상태. 시작 상태 ◦ $s_1$: 일어나서 노는 상태 ◦ $s_2$: 눈을 감은 상태 ◦ $s_3$: 서서히 잠이 오는 상태..

강화 학습/바닥부터 배우는 강화 학습 2022.11.04
이전
1
다음
더보기
프로필사진

강화 학습 기반으로 문제를 해결하는 방법에 대한 공부를 하고 있습니다.

  • 분류 전체보기 (53)
    • 강화 학습 (11)
      • CS234 (0)
      • 바닥부터 배우는 강화 학습 (10)
      • ML-Agent (1)
    • 로봇 (34)
      • ROS (21)
      • STM32 (9)
      • ESP32 (2)
      • 라즈베리파이 (2)
    • 프로그램 (3)
      • Java (3)
    • 환경 (5)

Tag

Markov Process, uart, LED, Actor-Critic, Button, MDP, 몬테카를로, Reinforcement Learning, Q러닝, CubeIED, 바닥부터 배우는 강화 학습, Markov Decision Process, 강화학습, CS234, interrupt, Markov Reward Process, STM32, NUCLEO-F103RB, 강화 학습, ros,

최근글과 인기글

  • 최근글
  • 인기글

최근댓글

공지사항

페이스북 트위터 플러그인

  • Facebook
  • Twitter

Archives

Calendar

«   2025/05   »
일 월 화 수 목 금 토
1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30 31

방문자수Total

  • Today :
  • Yesterday :

Copyright © Kakao Corp. All rights reserved.

티스토리툴바