예측 썸네일형 리스트형 강화학습에서 Approximation 은 어떤 의미인가? / Approximation in Reinforecement Learning 강화학습에서 Approximation 은 어떤 의미인가? Approximation in Reinformcement Learning 전통적인 강화학습은 상태 $s$ 나 상태-행동 $(s,a)$ 에 대한 Value값 $V(s)$ 혹은 $Q(s,a)$ 를 학습하는 것을 기반으로 합니다. 환경에서 주어지는 상태의 개수가 $|S|$ 그리고 행동의 수가 $|A|$ 라고 한다면, Value 값을 정확하게 위해서는 상태에 따라서 값을 저장해줘야 한다는 단점이 있습니다. 두 명이서 가위바위보를 한다면, 총 가능한 상태는 내가 내는 것 3 가지와 상대방이 내는 3가지의 경우의 수인 9가지가 됩니다. 이와 다르게 마리오 게임이라면 마리오가 조금만 움직여도 위치가 달라지기 때문에 굉장히 많은 상태가 있습니다. (어쩌면 무한대.. 더보기 이전 1 다음