'바닥부터 배우는 강화 학습' 7장에는 무수히 많은 MDP를 풀기 위해 딥러닝을 강화학습에 적용하는 방법에 대해서 설명하고 있습니다. 아래 내용은 공부하면서 핵심 내용을 정리한 것입니다. 참고자료 도서: 바닥부터 배우는 강화 학습 / 7장 Deep RL 첫 걸음 7.1 함수를 활용한 근사 바둑의 경우는 바둑판 $19 \times 19$ 격자의 모든 빈칸이 바둑알을 놓을 수 있는 후보지가 되고 그로 인한 상태의 수가 너무 많음 ◦ 체스: $10^{47}$ ◦ 바둑: $10^{170}$ 연속적인 상태 공간(continuous state space): 바둑이나 체스처럼 이산적(discrete)인 형식이 아닌 속도와 같이 연속적인 값을 가질 수 있음. 상태의 개수가 너무 많거나 상태 공간이 연속적이면 ◦ 상태 ..