MADDPG 썸네일형 리스트형 MARL - MADDPG 이해하기 MADDPG(Multi-Agent Deep Deterministic Gradient) [paper] Model Architecture Policy $\pi_i$는 Policy Network로 상태에 대해서 행동을 결정하고 Critic Network $Q_i$는 Agent의 관찰과 행동에 대한 적정한 값인 Return을 계산합니다. 이는 기존 single-agent의 actor-critc과 동일합니다. N개의 Agent가 있을 때, 각각의 Agent는 자신만의 Policy, Critic Network를 가지고 있습니다. MADDPG에서 특이한 점은 Q네트워크의 인풋으로, 다른 Agent의 정보가 모두 들어간다는 것 입니다. 학습시: Q-network에 다른 agent의 관찰과 행동이 모두 들어가서, age.. 더보기 이전 1 다음