다중 에이전트 심층 강화학습 알고리즘을 위한 효율적인 학습 방법이 개시된다. 일 실시예에 따른 다중 에이전트 강화학습을 위한 학습 방법은, 복수 개의 에이전트 각각의 관측 정보와 수신된 메시지를 입력으로 하는 정책을 이용하여 행동을 결정하는 단계; 상기 결정된 행동에 기초하여 메시지 드롭아웃(message dropout)을 위하여 정해진 드롭 레이트(drop rate)에 따라 상기 수신 메시지를 드롭아웃하여 네트워크를 학습시키는 단계를 포함하고, 상기 강화학습 방법은, 1)통신이 가능한 분산 제어(Decentralized control with communication) 환경 또는 2)중앙 집권형 학습 및 분산 실행(Centralized training with decentralized execution) 환경에서의 다중 에이전트 강화학습을 위한 것일 수 있다.