강화학습 Return 썸네일형 리스트형 강화학습에서 랜덤성과 비랜덤성에 관하여 + Return, Value Function 강화학습에서 랜덤성과 비랜덤성에 관하여 강화학습에서는 시간에 따라서 상태, 행동 보상이 결정된다. 이 값들에는 랜덤성이 포함되어 있고, 다음 Random Variable을 생각할 수 있습니다. State $S_t$ Action $A_t$ Reward $R_t$ Return $G_t = \sum_{k=0} ^\infty \gamma^k R_{t+k+1}$ 한 가지 놓칠 수 있는 것은 Return 값 또한 Random Variable 이라는 것 입이다. Cumulative Reward 라고도 불리는 이 값은 시간에 따라서 변하는 Radom Variable이기 때문에, 상태에 대해서 고정적인 값을 내려주지 않습니다. 만일 이 값을 상태 또는 (상태+행동)에 대해서 평균을 내리게 된다면, 우리는 랜덤성이 사라진.. 더보기 이전 1 다음