본문 바로가기

딥러닝

[논문 리뷰] OpenAI Learning to Play Minecraft with Video PreTraining (VPT) HTML 삽입 미리보기할 수 없는 소스 2022-06-23 일 OpenAI 블로그에 새로운 글이 올라왔다. Learning to Play Minecraft with Video PreTraining 라는 논문으로, MineCraft 를 비디오를 Pretraining 시켰다고 한다. 보통 Pretraining 하면 NLP의 텍스트 Language Modeling 으로 주로 사용되는데, 이번에 강화학습 분야에서 Pretraining을 시켰다고 한다. 그동안 강화학습에서는 Pretraining 자체를 할 수 없었는데, 그 이유는 환경에 대한 Universal Representation이 없기 때문이다. 예를 들어서, 지금 적고 있는 글은 다른 곳에서도 동일하게 사용될 수 있지만, 강화학습에서는, 로봇의 각도의 .. 더보기
블랙박스 모델 설명 (XAI) Introduction 딥러닝 모델은 의심의 여지가 없이 많은 도메인에서 높은 성능을 보여줍니다. 많은 데이터로부터 학습을 진행하면서 예측을 하게 되며, 사용자는 모델에 인풋으로 넣는 데이터와 결과인 아웃풋만 알 수 있습니다. 수많은 파라미터로 이루어진 복잡한 내부에 대해서는 알지 못하며, 또한 예측값은 보통 스칼라이며, 해당 값이 나온 이유에 대해서도 알려주지 않습니다. 이러한 블랙박스적인 특성은 모델을 사용하며 이를 신뢰할 수 있는가에 대한 이슈와 직접적으로 관련되어 있기에 해결해야 하는 중요한 문제입니다. 모델에 대한 설명성의 필요성으로부터 예측 모델에 대한 설명을 위한 연구들이 다방면으로 진행되었고, Klaus-Robert Muller 의 CVPR 2018 년도에 tutorial로 몇가지 카테고.. 더보기
강화학습에서 랜덤성과 비랜덤성에 관하여 + Return, Value Function 강화학습에서 랜덤성과 비랜덤성에 관하여 강화학습에서는 시간에 따라서 상태, 행동 보상이 결정된다. 이 값들에는 랜덤성이 포함되어 있고, 다음 Random Variable을 생각할 수 있습니다. State $S_t$ Action $A_t$ Reward $R_t$ Return $G_t = \sum_{k=0} ^\infty \gamma^k R_{t+k+1}$ 한 가지 놓칠 수 있는 것은 Return 값 또한 Random Variable 이라는 것 입이다. Cumulative Reward 라고도 불리는 이 값은 시간에 따라서 변하는 Radom Variable이기 때문에, 상태에 대해서 고정적인 값을 내려주지 않습니다. 만일 이 값을 상태 또는 (상태+행동)에 대해서 평균을 내리게 된다면, 우리는 랜덤성이 사라진.. 더보기
# Markov Decision Process에 관하여 / + Markov Chain Markov Decision Process에 관하여 인생은 B와 D 사이에 C라는 말이 있다. Birth 와 Death 사이의 Choice를 하는 것처럼 현재 상태에서 선택을 하는 것은 아주 중요하며, 이를 모델링 하는 것이 Markov Decision Process (마르코브 의사 결정)이다. 먼저 용어에서 두려움을 느끼는 사람들(나를 포함해서) 을 위해서 의미를 조급 쉽게 생각해보겠다. Markov : 다음 미래를 고려할 때, 과거는 싹다 잊고 현재만 생각하라는 Markov Property에서 왔다. 이게 없다면 의사 결정 시, 과거의 기록까지 전부 들춰봐야 한다. 마르코프라는 무서운 이름과는 다르게 아주 착한 일을 해준다. Decision: 위에서 말한 현재 상태에서 선택을 결정하는 것이다. MDP.. 더보기
강화학습에서 Approximation 은 어떤 의미인가? / Approximation in Reinforecement Learning 강화학습에서 Approximation 은 어떤 의미인가? Approximation in Reinformcement Learning 전통적인 강화학습은 상태 $s$ 나 상태-행동 $(s,a)$ 에 대한 Value값 $V(s)$ 혹은 $Q(s,a)$ 를 학습하는 것을 기반으로 합니다. 환경에서 주어지는 상태의 개수가 $|S|$ 그리고 행동의 수가 $|A|$ 라고 한다면, Value 값을 정확하게 위해서는 상태에 따라서 값을 저장해줘야 한다는 단점이 있습니다. 두 명이서 가위바위보를 한다면, 총 가능한 상태는 내가 내는 것 3 가지와 상대방이 내는 3가지의 경우의 수인 9가지가 됩니다. 이와 다르게 마리오 게임이라면 마리오가 조금만 움직여도 위치가 달라지기 때문에 굉장히 많은 상태가 있습니다. (어쩌면 무한대.. 더보기
시그마 - Algegra 란 무엇인가 시그마 - Algegra 란 무엇인가 특정 집합 $X$가 주어졌을 때, 이 집합의 원소들로 이루어진 부분 집합(subset) 을 고려할 수 있습니다. 예를 들어서 $X= \{ 1,2,3\}$이라면, $\{ 1\}$ 이나 $\{1,2\}$ 가 예시가 될 수 있겠습니다. 그리고 이러한 부분집합들을 모아놓은 Collection 을 생각할 수 있는데, 예를 들어서 $\{\{ 1,2\}, \{1\} \}$ 이나 $\{\{ 1,2\}, \{1,2,3\} \}$ 을 생각할 수 있습니다. 아무렇게나 subset들을 모아놓을 수 있지만, 특정 조건을 만족하게 된다면 해당 Collection을 $\sigma$-algebra라고 합니다. 굳이 algebra라고 이름을 붙이는 이유는 해당 집합의 원소들에 대해서 연산이 가능하.. 더보기
Target, Behavior, On, Off policy 를 구분해보자. Target, Behavior, On, Off policy 를 구분해보자. 에이전트는 환경의 상태 $s$ 에 대해서 행동 $a$ 를 선택합니다. 특성 시간 $t$ 에서 행동을 결정하는 Policy $\pi_t (a|s)$ 가 주어졌을 때, 이는 확률값일수도 있고, 무작위성을 포함한 epsilon greedy 일수도 있습니다. 시간이 지남에 따라서 에이전트는 환경에서 학습을 진행하여 더 나은 policy $\pi_t$ 를 얻게 되기에, 업데이트가 되는 sequence $\pi_1, \pi_2, \cdots, \pi_t$ 를 고려해봅시다. 만일 누군가에게 이 많은 policy 중에 하나를 고르라고 한다면, 아마 대부분의 사람들은 가장 마지막 policy $\pi_t$ 를 고르는데, $\pi _t$ 가 가장 .. 더보기
[Remark] 강화학습 Return에 대한 이해와 n-step Return 강화학습 Return에 대한 이해와 n-step Return Return 과 n-step return 강화학습에서는 순간적인 보상을 최대화하는 것보다 한 단계 더 나아가서 미래에 받게 되는 보상까지 더한 값을 최대화합니다. Return은 미래보상까지 더해진 값을 나타내며 다음과 같이 쓸 수 있습니다. 이 때, $\gamma$ 는 미래에 대한 패널티로 discount factor입니다. $$G_t = R_t + \gamma R_{t+1} + \gamma^2 R_{t+2} + \cdots$$ $t$ 시간에 보상은 그 후에 발생되는 미래의 사건들의 보상을 모두 더하기 때문에, 에피소드가 길다면, 굉장히 먼 미래까지 고려해야 합니다. 심지어는 끝나지 않는 에피소드의 경우, $G_t$ 값을 구하기 위하서 무한에 .. 더보기