learning 썸네일형 리스트형 강화학습에서 Approximation 은 어떤 의미인가? / Approximation in Reinforecement Learning 강화학습에서 Approximation 은 어떤 의미인가? Approximation in Reinformcement Learning 전통적인 강화학습은 상태 $s$ 나 상태-행동 $(s,a)$ 에 대한 Value값 $V(s)$ 혹은 $Q(s,a)$ 를 학습하는 것을 기반으로 합니다. 환경에서 주어지는 상태의 개수가 $|S|$ 그리고 행동의 수가 $|A|$ 라고 한다면, Value 값을 정확하게 위해서는 상태에 따라서 값을 저장해줘야 한다는 단점이 있습니다. 두 명이서 가위바위보를 한다면, 총 가능한 상태는 내가 내는 것 3 가지와 상대방이 내는 3가지의 경우의 수인 9가지가 됩니다. 이와 다르게 마리오 게임이라면 마리오가 조금만 움직여도 위치가 달라지기 때문에 굉장히 많은 상태가 있습니다. (어쩌면 무한대.. 더보기 [Remark] 강화학습 Return에 대한 이해와 n-step Return 강화학습 Return에 대한 이해와 n-step Return Return 과 n-step return 강화학습에서는 순간적인 보상을 최대화하는 것보다 한 단계 더 나아가서 미래에 받게 되는 보상까지 더한 값을 최대화합니다. Return은 미래보상까지 더해진 값을 나타내며 다음과 같이 쓸 수 있습니다. 이 때, $\gamma$ 는 미래에 대한 패널티로 discount factor입니다. $$G_t = R_t + \gamma R_{t+1} + \gamma^2 R_{t+2} + \cdots$$ $t$ 시간에 보상은 그 후에 발생되는 미래의 사건들의 보상을 모두 더하기 때문에, 에피소드가 길다면, 굉장히 먼 미래까지 고려해야 합니다. 심지어는 끝나지 않는 에피소드의 경우, $G_t$ 값을 구하기 위하서 무한에 .. 더보기 [Remark] All the probability metrics we need. All the probability metrics we need This post explains the probability metrics, including only the essential parts of the them. Kullback-Leiber Total variation Kolmogorov-Smirnov Wasserstein Maximum mean discrepancy Kullback-Leiber Consider two probability distributions $P$ and $Q$. The Kullback-Leiber Distance is defined by $$\begin{aligned}KL(P||Q) &= \sum_x P(x) \log \frac{P(x)}{Q(x)} \\ KL(P.. 더보기 [Remark] Why contraction property is important for Bellman operator [Remark] Why contraction property is important for Bellman operator Bellman Equation은 value function이 만족하는 방정식으로 주어진 policy에 대해서 $V_\pi(s)$값에 대한 관계를 나타냅니다. 주어진 policy $\pi$에 대해서 Bellman operator $\mathcal{T}_\pi$와 Bellman optimal operator $\mathcal{T}_*$은 다음과 같습니다. $$\mathcal{T}_\pi v = R_\pi + \gamma P_\pi v ~~~~~ (1)$$ $$(\mathcal{T}_\pi v)(s) = \max_{a\in \mathcal{A}} R_s^a + \gamma \sum_{s' .. 더보기 Machine Learning에서 Overfitting과 Underfitting은 뭘까..? 머신러닝이 하는 일은 크게 두 가지로 구분될 수 있습니다. 학습: 데이터로부터 모델을 학습시킨다. 추론: 학습된 모델로 새로운 데이터에 대하여 예측한다. 모델에는 학습과 추론이라는 두 가지 행동이 있습니다. 학습은 Train Data로부터 데이터의 패턴을 배우는 것으로 학습을 진행하면서 데이터에 대한 Loss를 줄이게 됩니다. 일반적으로 학습이 제대로 이루어 진다면 다음과 같은 Loss Graph가 그려집니다. 그런데 학습을 하다보면 Loss가 0에 가까이 떨어지지만, 0까지 떨어지지 않는 경우도 볼 수 있습니다. 이는 모델의 학습방법 및 구조와 관련되어 있습니다. -> Loss 가 0 근처에서 더이상 떨어지지 않는 것은 모델의 사이즈 보다 데이터의 정보가 크기 때문입니다. 모든 데이터를 커버할 수 없는.. 더보기 [Meta-Learning] 3. 메타러닝의 데이터셋 Dataset for Meta Learning Meta Learning 의 Task distribution view에 의하면 Meta Learning 은 Task들에 대한 학습을 통해서 가장 잘 학습하는 알고리즘 $w$를 찾는 것 입니다. 이로부터 새로운 Task에 대해서 빠른 학습, 더 높은 성능을 가지도록 학습합니다. Meta Learning의 데이터셋은 알고리즘을 찾기 위한 Source Task, 찾은 알고리즘으로 새로운 테스크에 대해서 모델을 훈련시키기 위한 Target Task으로 구분됩니다. 그리고 각각의 M과 Q개의 Task들로 이루어져 있습니다. Machine Learning Machine Learning에서는 Dataset에 대해서 다음 Loss를 최소화 하는 파라미터 찾는 것을 목적으로.. 더보기 [Meta-Learning] 2. 메타러닝의 Formal한 정의 저번 포스팅에서는 Meta Learning이 의미하는바를 알아보았습니다 [메타러닝이란 뭘까?]. 이번 포스팅에서는 Meta Learning의 Background에 대해서 살펴보겠습니다. 포스팅의 내용은 Meta Learning in Neural Networks: Survey 논문의 내용을 토대로 작성되었습니다. 메타러닝은 두 단계의 Learning으로 이루어집니다. 먼저 base learning 은 inner learning algorithm을 이용해서 dataset과 objective로 이루어진 Task에 대한 학습을 진행합니다. 예를 들어서, MNIST의 Categorical data에 대한 학습을 진행한다면, algorithm=(Adam Optimizer, 2 Linear Layer), datase.. 더보기 이전 1 다음