bootstrap 썸네일형 리스트형 [Remark] 강화학습 Return에 대한 이해와 n-step Return 강화학습 Return에 대한 이해와 n-step Return Return 과 n-step return 강화학습에서는 순간적인 보상을 최대화하는 것보다 한 단계 더 나아가서 미래에 받게 되는 보상까지 더한 값을 최대화합니다. Return은 미래보상까지 더해진 값을 나타내며 다음과 같이 쓸 수 있습니다. 이 때, $\gamma$ 는 미래에 대한 패널티로 discount factor입니다. $$G_t = R_t + \gamma R_{t+1} + \gamma^2 R_{t+2} + \cdots$$ $t$ 시간에 보상은 그 후에 발생되는 미래의 사건들의 보상을 모두 더하기 때문에, 에피소드가 길다면, 굉장히 먼 미래까지 고려해야 합니다. 심지어는 끝나지 않는 에피소드의 경우, $G_t$ 값을 구하기 위하서 무한에 .. 더보기 이전 1 다음