시그마 - Algegra 란 무엇인가
시그마 - Algegra 란 무엇인가 특정 집합 $X$가 주어졌을 때, 이 집합의 원소들로 이루어진 부분 집합(subset) 을 고려할 수 있습니다. 예를 들어서 $X= \{ 1,2,3\}$이라면, $\{ 1\}$ 이나 $\{1,2\}$ 가 예시가 될 수 있겠습니다. 그리고 이러한 부분집합들을 모아놓은 Collection 을 생각할 수 있는데, 예를 들어서 $\{\{ 1,2\}, \{1\} \}$ 이나 $\{\{ 1,2\}, \{1,2,3\} \}$ 을 생각할 수 있습니다. 아무렇게나 subset들을 모아놓을 수 있지만, 특정 조건을 만족하게 된다면 해당 Collection을 $\sigma$-algebra라고 합니다. 굳이 algebra라고 이름을 붙이는 이유는 해당 집합의 원소들에 대해서 연산이 가능하..
더보기
Target, Behavior, On, Off policy 를 구분해보자.
Target, Behavior, On, Off policy 를 구분해보자. 에이전트는 환경의 상태 $s$ 에 대해서 행동 $a$ 를 선택합니다. 특성 시간 $t$ 에서 행동을 결정하는 Policy $\pi_t (a|s)$ 가 주어졌을 때, 이는 확률값일수도 있고, 무작위성을 포함한 epsilon greedy 일수도 있습니다. 시간이 지남에 따라서 에이전트는 환경에서 학습을 진행하여 더 나은 policy $\pi_t$ 를 얻게 되기에, 업데이트가 되는 sequence $\pi_1, \pi_2, \cdots, \pi_t$ 를 고려해봅시다. 만일 누군가에게 이 많은 policy 중에 하나를 고르라고 한다면, 아마 대부분의 사람들은 가장 마지막 policy $\pi_t$ 를 고르는데, $\pi _t$ 가 가장 ..
더보기