多智能体通信：基于通信的多智能体强化学习研究综述

编程入门行业动态更新时间:2024-10-23 10:25:30

多智能体<a href=https://www.elefans.com/category/jswz/34/1769529.html style= 通信：基于通信的多智能体强化学习研究综述"/>

多智能体通信：基于通信的多智能体强化学习研究综述

题目：A Survey of Multi-Agent Reinforcement Learning with Communication

出处：arXiv 2022

摘要：通信是协调多个智能体行为的有效机制。在多智能体强化学习领域，智能体可以通过通信来提高整体学习性能并实现其目标。此外，智能体可以通过特定渠道向所有智能体或特定智能体组传递各种类型的消息。随着越来越多的通讯研究工作（Comm MARL），缺乏一种系统和结构化的方法来区分和分类现有的通信系统。在本文中，我们调查在COMM MARL领域最近的作品，并考虑通信的各个方面，可以发挥作用的设计和开发的多Agent强化学习系统。考虑到这些方面，我们提出了可以分析、开发和比较Comm MARL系统的几个维度。

关键字：多智能体学习、强化学习、交流、调查

1，引言

许多真实场景涉及多个智能体交互并影响公共环境，例如自动驾驶[1]，传感器网络[2]，机器人技术[3]和游戏技术[4,5]。这些问题可以通过多智能体强化学习（MARL）来解决，智能体采用强化学习（RL）技术发展合作、竞争或合作与竞争行为的混合。由于智能体通常分布在环境中，如今部分可观测性成为MARL[6–8]中的一个基本假设，在这种情况下，智能体只能获得本地的观察结果，而不能了解环境整体状况。此外，MARL更容易受到非平稳问题[9]的影响，因为每个智能体不仅面临变化的环境，而且还可能受到其他智能体的变化和适应策略的影响。然而，智能体可以交流他们的信息，如观察、意图或经验，以稳定学习。通过沟通，智能体将更好地了解环境（或其他智能体），以便能够协调他们的行为[9,10]。

在本文中，我们关注如何利用通信来改善RL智能体在环境中的学习。具体来说，我们将重点放在可学习的通信协议上，放松对它们是给定和固定的假设。这与近期的研究一致，这些研究强调发展动态和适应性沟通，包括学习何时、如何以及如何与强大的深度强化学习技术交流[11-14]。然而，随着研究领域MARL与通信（Comm MARL）的结合，尽管在该领域进行了大量调查[10,15–19]，但缺乏一种系统和结构化的方法来区分和分类Comm-MARL系统。这种方法将指导MARL系统的设计和开发。想象一下，我们计划为手头的任务开发一个新的Comm MARL系统。从何时、如何以及交流什么的问题来看，该系统可以被描述为多个方面：智能体需要学习与谁交流、何时交流、交流哪一条信息、如何组合和整合接收到的信息，以及最终通过交流实现什么样的学习目标。

因此，我们提出了9个维度，对应于Comm MARL系统的独特方面。这些方面构成了Comm MARL系统的框架，需要进行彻底的分析和比较，以发现设计的见解。通过这种方式，我们旨在确定在MARL系统的设计和开发中可以发挥作用的通信的各个方面。通过将最近的Comm MARL系统映射到这种多维结构中，我们不仅可以深入了解该领域的当前技术状态，还可以确定设计未来Comm MARL系统的一些重要方向。

在第2节中，我们简要总结了Comm MARL系统的最新发展，展示了区分和分类Comm MARL系统的结构化方法的重要性。在第3节中，我们展示了我们提出的维度，解释了我们如何将最近的作品按每个维度分类。在第4节中，在提议的维度的驱动下，我们讨论了我们对该领域有前途的开放性问题的看法，并总结了调查。

2，相关工作

CommNet[12]、DIAL[11]和RIAL[11]等开创性著作——在合作博弈中，允许深度强化学习智能体之间通过局部观察进行沟通的学习。

CommNet学习一个共享的神经网络，以便智能体处理局部观测。每个智能体的决策取决于观察结果和来自其他智能体的消息（即隐藏层）的平均向量，这些消息可能以相同的方式查看其他智能体。原则上，智能体可以通过共享神经网络的副本以分散的方式在环境中执行，而需要与所有智能体进行即时通信。
在RIA和DIAL中，每个智能体都学习共享二进制或实值消息，这适用于有限的通信。DIAL将交流和环境政策的学习整合为一个单元，并使梯度能够在智能体之间流动。这种训练范式被称为端到端，并被许多作品所遵循[13,14,20-22]。如果传递的消息是离散值，因此无法计算梯度，RIA使用另一种RL算法来学习消息的内容，正如我们在最近的工作中所看到的[23–27]。

CommNet、DIAL和RIAL都是在完全协作的环境中使用少量智能体进行评估的。它们利用了智能体之间完全连接的结构，并将如何更高效地进行通信的问题作为一个悬而未决的问题。最近的研究基于预定义的或习得的通信结构，针对何时、与什么人、与什么人进行通信的问题，以及可能的现实约束。

早期的工作为每个智能体使用一个门机制来决定是否传递他们的消息。

ATOC[23]被提议在一个可观察的领域与某些智能体进行通信。只有附近的智能体才能参与由概率门机制确定的通信组。在通信组中，bi LSTM用于自动组合从每个智能体发送的消息，并发送回每个成员。
IC3Net[24]是从CommNet扩展而来的，它也使用了一种门机制，同时决定向所有智能体或根本不向任何智能体发送消息。此外，IC3Net为每个智能体提供个性化奖励，而不是像CommNet中使用的全球共享奖励，因此在竞争/混合环境中表现出更多样化的行为。
ETCNet[27]还为每个智能体使用一个门来决定是否广播他们的消息。然而，在优化过程中，发送消息的总体概率通过惩罚项进行调整，以减少过渡通信。
I2C[28]衡量了考虑其他智能体的行为对每个智能体自身策略的偶然影响。然后每个智能体决定是否以点对点的方式与其他智能体通信。

尽管门单元为通信提供了灵活的决策，但我们可以优先考虑通信机会，或以全局方式明确建立通信图。

SchedNet[25]学习选择一定数量的智能体来广播他们的消息。
GA Comm[22]、MAGIC[13]和FlowComm[14]学习了一个共享图，供智能体决定是否以及与谁通信。GA Comm通过使用注意机制来学习无向通信图，以确定哪对智能体可以相互通信。

相比之下，MAGIC和FlowComm通过在智能体之间构建有向图来生成更细粒度的控制。然后，连接的智能体可以单侧或双侧与其他智能体进行通信。

有些作品在学习消息内容的同时，使用智能体之间预定义的关系来决定何时以及与谁通信。智能体实体图[29]利用预训练图来维护智能体之间的关系。然后，连接的智能体将传达其对环境中观察和可观察实体的单独编码。

网络通信[30,31]建立在网络化多智能体系统（NMAS）的基础上，其中分散的智能体通过预定义的通信网络稀疏连接。在这里，我们考虑显式消息转移-智能体之间的环在训练和执行在NMAS中。
NeurComm[32]假设存在时空MDP，其中转换仅依赖于相邻智能体。然后，分散智能体将局部状态、动作概率和自己的信念状态与邻居进行通信，以提高可观测性并减少非平稳性。最后，智能体将根据更新的信念状态采取行动。
IP[33]假设对任务进行类似的分解，每个智能体的奖励只受其自身行为和邻居的行为的影响。然后智能体在通信网络上广播和协调他们的策略。

大多数作品利用本地信息生成编码作为消息内容。编码可能包含个人观察[11-14,20-22,25]或预期行动（或计划）[23,34]。接收到的消息可以连接在一起，以防止信息丢失[11,21,25,27]。智能体还可以显式地发送带有消息的签名，以通知其他智能体如何处理消息的重要性。

TarMAC[20]和IMMAC[35]使用广播方式让每个智能体发送带有签名的消息。接收消息的智能体通过考虑相关签名为每条消息分配权重。与IMMAC不同，TarMAC采用一种注意力机制来产生重量，而IMMAC使用softmax。由于注意机制的灵活性和强度，GA-Comm[22]也利用了注意机制。
GA Comm学习两个注意层，一个用于决定是否与其他人通信，另一个用于确定智能体之间的相对重要性，以及一个GNN网络来聚合mes-SAGE。然而，信息的重要性可以通过神经网络隐式学习。
BiCNet[36]建议通过bi LSTM层连接每个智能体的策略和价值功能。因此，智能体能够捕获其他具有长期依赖性的记忆状态，并相应地交换消息。
MD-MADDPG[37]允许智能体维护一个共享内存，作为其世界的上下文。然后，智能体学习按顺序读取和写入内存，就像在LSTM中一样。DGN[38]利用卷积层从相邻智能体获得（潜在）特征。

健壮的通信系统需要适应现实的限制，如昂贵的通信、随机环境等。

SchedNet[25]考虑了有限带宽和共享通信信道约束下的通信开销和竞争问题。因此，只选择有限数量的智能体向通道发送消息。
VBC[39]建议通过阈值限制传输消息的差异，以过滤差异较大的消息，从而降低通信开销。
TMC[40]禁止在一个时间窗口内生成类似消息的智能体广播其消息。然后，与之前发送的消息完全不同的消息将被共享给所有智能体。此外，TMC利用消息缓冲区来存储接收到的消息，以补偿丢失的消息。
门控ACML[26]建议分两步主动删除消息。第一步类似于ATOC和IC3Net，后者学习一种门机制来选择是否发送消息。然而，在第二步中，门控ACML假定有一个集中的消息协调器来协调消息并将其发送回每个智能体。通信可以减少，因为理论上每个智能体只需要彼此通信，即协调器。
受信息论[41,42]的启发，IMAC[21]和ETCNet[27]将有限的带宽形式化为优化约束。IMAC声称有限的带宽要求智能体发送低熵消息和建议的 clip 方差。ETCNet推导出允许智能体在每一步发送消息的概率上限，然后在有限带宽的约束下进行优化。可变长度编码[43]还考虑了带宽有限的情况，而智能体在给定的时间步长上调节发送的比特数。

3，提出规模

我们的目的是阐明一种设计多智能体通信系统和结构方法。我们认为该系统可以用9个维度来描述。表1描述了尺寸及其相应的目标问题。在以下小节中，我们将总结最近的工作，并根据建议的维度对其进行分类。

表1：逐步设计通信系统

方面 针对问题
通信类型 要与哪种类型的智能体进行通信？
通信策略 何时以及如何在智能体之间建立通信链接？
通信内容 分享那些信息？
消息组合 如何组合收到的消息？
内部集成 如何将组合信息整合到学习模型中？
沟通障碍 如何满足现实需求？
沟通学习 如何训练和改善沟通？
训练方式 如何利用从智能体收集的经验？
控制目标 在交流中需要什么样的行为？

3.1，通信类型

通信类型决定了哪种类型的智能体可能会在通信系统中接收消息。我们发现，在文献中，根据环境中的主体是否直接相互通信，通信类型可分为以下几类。

Agents in the MAS：在这一类别中，通信对象集由环境中的智能体组成，这意味着智能体将直接彼此通信。然而，由于部分可观察性，智能体可能无法与MAS中的每个智能体通信，因此我们进一步区分智能体如下：

（1）Nearby Agents：在许多MARL系统中，只允许在相邻之间的智能体进行通信。附近的智能体可以定义为可观察智能体[44]，一定距离内的智能体[29、38、45]或图形上的相邻智能体[32]。

GAXNet[44]标记了可观察的智能体，并支持它们之间的通信。
DGN[38]在使用距离度量查找最近的3个邻居时，将通信限制在3个邻居内。
Agent-Entity Graph[29]还使用距离来测量附近的Agent，而只要两个Agent彼此靠近，就可以进行通信。
LSC [45]在群集中启用智能体，半径来决定是否成为领导者（智能体）。然后集群中的所有非领导者智能体将只和一个领导者（智能体）通信。
NeurComm[32]和IP[33]构建在联网的多智能体系统上，在智能体之间预设了一个图形结构。因此，在学习过程中，交流对象仅限于图上的邻居。MAGNet SA GS MG[46]也使用预训练图来限制通信。
相邻智能体也可以在学习过程中出现，而不是像GA Comm[22]、MAGIC[13]和FlowComm[14]中提出的那样预先定义，它们明确地学习智能体之间的图形结构。然而，在GA Comm[22]和MAGIC[13]中，中央单元（例如GNN）学习内部的图形，并根据该图形同时协调消息。因此，智能体不直接通信，因此我们将这两部作品归入智能体类别。

（2）Other (Learning) Agents：如果附近的智能体未被识别，则通信对象集仅由其他（学习）智能体组成。具体而言，IC3Net[24]支持学习智能体与其对手之间的交流（使用固定策略）。实验表明，对手最终会学会不交流，以防止被利用。

Proxy：代理是一种视觉智能体，在通信中起着至关重要的作用，但对环境没有直接影响。使用代理作为通信对象意味着智能体将不会直接相互通信，而将代理视为一种媒介，可以为特定目的协调和转换消息。

MS-MARL-GCM[50]利用一个主智能体，从环境中的智能体收集本地观察和隐藏状态，并向每个智能体发送一条公共消息。
与MS-MARL-GCM类似，HAMMER[51]使用了一个中央代理，该代理从MAS中的代理收集本地观察结果，同时向每个智能体发送私人消息。
ATOC[23]使用LSTM连接决定加入通信组的附近代理，协调消息将共享给每个成员。
MD-MADDPG[37]在智能体之间保持共享内存，并学习选择性地将局部观察存储到内存中并加载内存。IMAC[21]定义了一个调度器，它聚合来自所有智能体的编码信息，并向每个智能体发送单独的消息。
然而，在门控ACML[52]中，智能体将决定是否与消息协调器通信。
GA Comm[22]和MAGIC[13]学习一个全局消息处理器，根据智能体的权重集成来自代理的消息。

表2总结了最近关于通讯类型的工作。为了演示上述类别，我们在图1中给出了一个生动的示例，展示了在Comm MARL系统中如何使用不同的Communicate类型。如我们所见，智能体3和智能体4是附近的智能体1和智能体2，而智能体5是智能体1和智能体2无法看到的另一个智能体。然后，如果可能，智能体1可以与其相邻智能体3或代理进行通信。

表2：沟通类型的类别

Types Subtypes Methods
Agent in the MAS Nearby Agents DGN [38]; MAGNet-SA-GS-MG [46]; Agent-Entity Graph [29]; LSC[45]; NeurComm [32]; IP [33]; FlowComm [14]; GAXNet [44];
Other Agents DIAL [11]; RIAL [11]; CommNet [12]; BiCNet [36]; TarMAC [20];
MADDPG-M [47]; IC3Net [24]; SchedNet [25]; DCC-MD [48]; VBC
[39]; Diff Discrete[49]; I2C [28]; IS [34]; ETCNet [27]; Variable-
length Coding [43]; TMC [40];
Proxy MS-MARL-GCM [50]; ATOC [23]; MD-MADDPG [37]; IMAC [21];
GA-Comm [22]; Gated-ACML [26]; HAMMER [51]; MAGIC [13];

图1：同一系统中的三种通信类型

3.2，通信策略

通信策略定义了如何决定是否与潜在通信方通信以实现消息传输。通信策略可以是预定义的，也可以是学习的。

在预定义的结构中，我们可以允许完全通信，而不考虑每对智能体是否应该通信，或者使用固定参数，例如学习期间平均通信智能体的数量，以实现更动态的通信结构。尽管如此，学习确定如何在智能体之间构建通信结构为更多场景提供了概括能力，并且由于其灵活性而变得越来越流行。
可学习的通信策略可以由本地智能体执行，也可以由整个MAS共享。此外，如果智能体出现，智能体可以单独学习与智能体通信[23,26]。中央智能体本身也可以形成一个全局通信结构，以实现消息协调和高效通信[13,22]。

根据这些观察结果，我们将当前确定沟通政策的工作分为四类（总结见表3）。我们还展示了智能体如何在图2中的四种通信策略中构建通信链路的示例。完整通信和部分结构都使用预定义的通信策略来决定是否进行通信。相比之下，个体控制和全局控制分别学习本地通信策略和全局通信策略，以在智能体（或可能的智能体）之间建立通信链接。如果出现智能体（通常是中心智能体），智能体将协调来自决定与智能体通信的智能体的消息。分类和相关工作总结如下：

表3：通信策略范畴

Types Subtypes Methods
Predefined Full Communication DIAL [11]; RIAL [11]; CommNet [12]; BiCNet [36]; MS-MARL-
GCM [50]; TarMAC [20]; MD-MADDPG [37]; DCC-MD [48];
IMAC [21]; Diff Discrete[49]; IS [34]; Variable-length Coding
[43]; HAMMER [51];
Partial Structure DGN [38]; MAGNet-SA-GS-MG [46]; Agent-Entity Graph [29];
VBC [39]; NeurComm [32]; IP [33]; TMC [40]; GAXNet [44];
Learnable Individual Control ATOC [23]; MADDPG-M [47]; IC3Net [24]; Gated-ACML [26];
LSC [45]; I2C [28]; ETCNet [27];
Global Control SchedNet [25]; GA-Comm [22]; MAGIC [13]; FlowComm [14];

图2：与环境中的智能体（显示为A）和可能的智能体（显示为P）的四种通信策略。

Full Communication（充分沟通）：在这一类别中，每对智能体都将被连接，消息将以广播方式传输。完全沟通可以被视为一种完全连接的结构，这在早期的通讯作品中经常使用

DIAL[11]、RIAL[11]、CommNet[12]和BiCNet[36]学习将所有智能体连接在一起的通信协议。
差异分立（49）和可变长度编码（43）考虑两个智能体情况，而不学习阻止彼此的消息
TarMAC[20]和IS[34]在使用广播方式共享信息的同时学习有意义的信息，因此仍然使用完全通信。
DCC-MD[48]以一定的概率丢弃接收到的消息，以减少输入维度，同时不了解是否要通信。
在IMAC[21]、MS-MARL-GCM[50]和HAMMER[51]中，接收本地观察或编码消息的中央智能体始终连接MAS中的智能体。

(Predefined) Partial Structure（预定义）部分结构：智能体之间的通信关系可以通过一个预定义的图来捕捉，该图随时间动态变化。然后每个智能体与数量有限的智能体进行通信，而不是与所有其他智能体进行通信。

NeurComm[32]和IP[33]基于网络化多智能体系统，通过随机生成通信网络，同时保持学习期间通信智能体的平均数量不变。
DGN[38]、MAGNet SA GS MG[46]和GAXNet[44]只允许在一定数量的附近智能体内进行通信。智能体实体图[29]利用预训练图来捕捉智能体之间的关系。
VBC[39]和TMC[40]使用手工制作的阈值来过滤通信机会。

Individual Control（）个体控制：每个智能体都会主动且独立地决定是否与其他智能体进行通信。智能体之间的通信链接隐式地形成了一个图结构。大多数作品利用可学习的门机制来促进交流决策。

IC3Net[24]和ATOC[23]分别为智能体引入了一种门机制，用于决定是否以确定性方式和概率方式广播其消息。
I2C[28]通过评估其他智能体对智能体自身策略的影响，学会双边决定是否与其他智能体进行通信。
ETCNet[27]还使用门单元，同时限制发送消息行为的总概率。如果出现智能体，例如消息协调器，门控ACML[26]将学习每个智能体的门机制，以决定是否与智能体通信，而不是直接与其他智能体通信。与使用门函数不同，
LSC[45]允许每组智能体（在一定范围内）将其权重比较为一个领导者智能体，然后允许从每组到其领导者，以及从领导者到领导者的通信。

Global Control（全局控制）：可以学习全局共享的通信策略，以便更精确地控制智能体之间的通信链路。

SchedNet[25]学习一个全局调度器，全局调度器只允许一定数量的智能体广播他们的消息，以减少通信。
FlowComm[14]学习智能体之间的有向图，因此智能体可以单方或双边地相互通信。
类似地，GA Comm[22]和MAGIC[13]分别学习无向图和有向图。然而，它们引入了额外的消息协调器来协调和转换来自智能体的消息。

3.3，通信内容

一旦通过通信策略在智能体之间建立通信链接，智能体应决定在他们之间传输哪条信息。由于部分可观测性的普遍假设，局部观测对于协调变得至关重要。此外，智能体可以利用历史经验、预期行动或未来计划来生成更多信息。根据未来信息是否被模拟和编码，我们将这一维度的近期作品分为以下两类（总结见表4）。

表4：沟通信息的类别

Types Methods
Existing Knowledge DIAL [11]; RIAL [11]; CommNet [12]; BiCNet [36]; MS-MARL-GCM [50]; DGN [38]; TarMAC [20]; MAGNet-SA-GS-MG [46]; MADDPG-M [47]; IC3Net [24]; MD-MADDPG [37]; SchedNet [25]; DCC-MD [48]; Agent-Entity Graph [29]; VBC [39];
IMAC [21]; GA-Comm [22]; Gated-ACML [26]; LSC [45]; Diff Discrete[49]; I2C [28];ETCNet [27]; Variable-length Coding [43]; TMC [40]; HAMMER [51]; MAGIC [13];FlowComm [14]; GAXNet [44];
Imagined Future Knowledge ATOC [23]; NeurComm [32]; IP [33]; IS [34];

Existing Knowledge（现有知识）：在这一类别中，智能体利用现有知识（如过去的观察或行动）来促进交流，最近的作品将这些知识编码为信息。特别是，RNN家族（例如LSTM和GRU）通常被用作编码功能，能够选择性地忘记和存储历史观察[12–14、20、22、24、28、36、50]或动作观察历史[11、36]。然而，如果出现智能体，则会生成消息，并将其从智能体转换到智能体，然后从智能体转换到智能体。因此，我们将最近关于使用现有知识作为信息的工作区分为以下两种情况：

（1）With Proxy：通过使用代理，通信消息将通过两个步骤生成。首先，可以对局部观测值进行编码[13,21,22,26,37]或直接发送[50,51]到代理服务器。然后，收集本地（编码）观察结果的代理可以向所有智能体生成单个新消息[50]，或向每个智能体生成个性化消息[13、21、22、26、37、51]。这两种方式都产生一个包含全局信息的消息，而智能体不需要做出任何努力来考虑如何组合消息。

（2）Without Proxy：在不使用代理的情况下，消息会直接发送到每个智能体。

DIAL和RIAL[11]使用过去观察和行动的编码，并将本地观察作为消息。
BiC-Net[36]不仅是每个智能体的局部视图，而且是对环境的全局观察。
其他作品直接传达观测结果[47]，或使用简单的前馈网络[25,27,43,49]、MLP[39,40,46]、自动编码器[48]、CNN[38]、RNN[12,14,20,24,28]或GNN[29,45]来获得编码的局部观测结果。

此外，智能体可以进行更多的沟通具体信息。例如，在GAXNet[44]中，代理协调其局部注意权重，用于组合来自相邻代理的隐藏状态。

Imagined Future Knowledge（想象的未来知识）：我们将想象中的未来知识称为预期行动[23]、策略指纹（即特定状态下的当前行动概率）[32,33]或未来计划[34]，可以通过模拟环境动力学模型[34]生成。由于意图和计划与州有关，最近的作品通常将意图与当地观察结果一起编码，以生成更相关的信息。

3.4，消息组合

目前在Comm MARL上的工作通常将收到的（多个）消息作为一个整体进行处理。消息组合确定在将接收到的消息馈送到智能体的内部模型之前如何组合它们。如果使用代理，通常每个智能体都会从代理接收协调和组合的消息，不包括操作消息组合所需的消息，如通信消息维度中所述。如果没有使用代理，每个智能体将分别决定如何组合多条消息。由于沟通信息编码了发送者对学习或环境的个人理解，因此一些信息可能比其他信息更具价值。如表5所示，我们因此根据智能体对消息的偏好对这一维度的近期作品进行分类。

表5：信息组合的范畴

Types Methods
Concatenation DIAL [11]; RIAL [11]; MADDPG-M [47]; SchedNet [25]; Diff Discrete[49]; IS [34];
ETCNet [27]; Variable-length Coding [43];
Equally Valued CommNet [12]; IC3Net [24]; VBC [39]; FlowComm [14];
Unequally Valued BiCNet [36]; MS-MARL-GCM [50]; ATOC [23]; DGN [38]; TarMAC [20]; MAGNet-
SA-GS-MG [46]; MD-MADDPG [37]; DCC-MD [48]; Agent-Entity Graph [29];
IMAC [21]; GA-Comm [22]; Gated-ACML [26]; LSC [45]; NeurComm [32]; IP [33];I2C [28]; TMC [40]; HAMMER [51]; MAGIC [13]; GAXNet [44];

Concatenation（串联）：消息是串联的，因此不引入首选项。通过串联，即使输入空间扩大，信息也不会丢失[11,25,27,34,43,47,49]。因此，消息可以表示为单值[11,27,43]或短向量[25]，并且只在少数智能体上进行实验。

Equally Valued（相同价值）：当发送消息的智能体可能被视为相同的智能体时，消息将被平等地组合。最后一条消息可以通过平均[12,24,39]或汇总[14]收到的消息（向量）生成。

Unequally Valued（不相等价值）：在这一类别中，智能体及其消息的价值是不同的。DCC-MD[48]和TMC[40]中使用了手工编制的规则来删减一些接收到的消息。然而，注意力机制通常用于为每个接收到的信息分配权重，然后将它们组合在一起[20,29,46]。此外，消息的组合可以建模为一个新的网络，它隐含地对消息施加偏好。简单神经网络[21,26,51]、CNN[38]、LSTM（或RNN）[23,28,32,36,37,44,50]和GNN[13,22,33,45]用于自动学习组合消息。其中，GNN利用智能体的学习图结构，结合注意机制为相邻智能体分配权重。

3.5，内部整合

内部集成决定了如何将（组合的）消息集成到智能体的学习模型中。由于大多数文献将消息视为附加观察，智能体可以将消息作为策略函数、值函数或两者的额外输入。然后，我们将最近关于内部整合的工作分为以下几类，根据这些类别，学习模型的一部分将用于整合信息（总结在表6中）。

表6：内部整合的范畴

ypes Methods
Policy-level CommNet [12]; MS-MARL-GCM [50]; ATOC [23]; MAGNet-SA-GS-MG [46];IC3Net [24]; MD-MADDPG [37]; SchedNet [25]; IMAC [21]; GA-Comm [22]; Gated-ACML [26]; Diff Discrete[49]; IP [33]; I2C [28]; IS [34]; ETCNet [27]; Variable-length Coding [43]; HAMMER [51]; FlowComm [14]; GAXNet [44];
Value-level DIAL [11]; RIAL [11]; DGN [38]; DCC-MD [48]; VBC [39]; LSC [45]; TMC [40];
Policy-level and Value-level BiCNet [36]; TarMAC [20]; MADDPG-M [47]; Agent-Entity Graph [29]; NeurComm[32]; MAGIC [13];

Policy-level（策略层面）：将消息合并到策略模型中，相当于说，智能体将根据接收到的消息选择下一个动作。通过利用来自其他智能体的信息，每个智能体将不再独立行动。该政策可以通过政策梯度学习，强化[12,22,24,50]，在每集中收集奖励并在每集结束后训练模型，或演员-批评家方法[14,21,23,25-28,33,34,37,43,44,46,49,51]，假设评论家模型（即Q函数）指导演员模型（即政策网络）的学习。

Value-level（价值层面）：在这个类别中，消息被作为值函数（或动作值函数）的输入。大多数作品都是使用类似DQN的方法[11,38-40,45,48]来完成这一部分的。

Policy-level & Value-level（策略和价值层面）：同时使用策略模型和价值模型来集成消息通常基于参与者-批评者方法。接收到的消息可被视为额外输入[29,36]，分别输入演员模型和评论家模型。这些信息还可以与局部观察相结合，生成新的内部状态，供演员和评论家模型共享[13,20,32,47]。

3.6，通信限制

通信成本和噪声环境等现实问题损害了通信系统的应用，而不是模拟。通信限制决定了在通信系统中处理哪些以及如何处理现实世界的限制。我们将这方面的近期作品分为三类（总结见表7）。

表7：沟通约束的范畴

Types Methods
Limited Bandwidth DIAL [11]; RIAL [11]; SchedNet [25]; VBC [39]; IMAC [21]; Gated-ACML [26]; ETC-Net [27]; Variable-length Coding [43]; TMC [40];
Noisy Channel DIAL [11]; Diff Discrete[49];
Shared Medium MD-MADDPG [37]; SchedNet [25];

Limited Bandwidth（有限带宽）：在这一类中，通信带宽和容量被认为是有限的。早期的工作侧重于传输简洁的消息，以避免通信开销。

RIA和DIAL[11]分别用于在两个智能体之间传递二进制消息或实值，以缓解有限的信道容量。
SchedNet[25]共同考虑共享信道和有限带宽。因此，根据其重要性，只会选择一部分智能体来广播其消息。
VBC[39]和TMC[40]通过使用预定义的阈值用于过滤不必要的通信，两者都显示出比SchedNet更低的通信开销。
门控ACML[26]学习概率门单元来阻止智能体和集中式消息协调器之间的消息传输，与手动阈值相比，学习调整门的成本更高。
IMAC[21]明确地对优化中的带宽限制进行了建模，这要求智能体发送低熵消息，而不是阻塞通信。
受门控ACML和IMAC的启发，ETCNet[27]建立了一个约束模型，将带宽转换为惩罚阈值，以限制发送行为。可变长度编码[43]在鼓励短消息的同时也使用了惩罚词。

Noisy Channel（噪声频道）：在这一类中，智能体之间传输的消息可能会因环境噪声而改变。拨号盘考虑了高斯噪声，并表明向实值消息添加噪声将改变消息的分布。Diff Discrete[49]还关注噪声信道，同时通过离散实值消息反向传播导数。通过提出的技术，发送（实值）消息在数学上等价于带有加性噪声的离散化信号，因此可以导出梯度。

Shared Medium（共享媒介）：由于消息仅由一种介质传输，这一类别将考虑争用问题。MD-MADDPG[37]允许智能体按顺序访问共享内存空间，以避免冲突。SchedNet[25]选择具有高度重要性的智能体来广播其消息。

3.7，通信学习

通信学习集中于如何更新和调整通信协议，包括学习通信策略和消息内容。交流学习可以利用定义的反馈（即奖励），除了学习环境策略外，还可以通过另一个（强化）学习过程最大化反馈，或者允许梯度从一个智能体反向传播到另一个智能体，以提供更丰富和密集的反馈。然而，使用反向传播要求消息和通信行为是不同的，如果智能体学习离散的发送行为（即发送或不发送），则可能不可行。我们根据如何利用交流反馈对这方面的近期工作进行分类（总结见表8）。

表8：通信学习的类别

Types Methods
Reinforced RIAL [11]; ATOC [23]; MADDPG-M [47]; IC3Net [24]; SchedNet [25]; Gated-ACML
[26]; LSC [45]; I2C [28]; ETCNet [27]; HAMMER [51];
Differentiable DIAL [11]; CommNet [12]; BiCNet [36]; MS-MARL-GCM [50]; DGN [38]; TarMAC
[20]; MAGNet-SA-GS-MG [46]; MD-MADDPG [37]; DCC-MD [48]; Agent-Entity
Graph [29]; VBC [39]; IMAC [21]; GA-Comm [22]; Diff Discrete[49]; NeurComm
[32]; IP [33]; IS [34]; Variable-length Coding [43]; TMC [40]; MAGIC [13]; Flow-
Comm [14]; GAXNet [44];

Reinforced（强化）：在这一类中，使用另一种（强化）学习算法来训练通信协议。

Rial[11 ]和HAMMER[51 ]关注于在完全通信结构中学习消息的内容，而不考虑是否要通信的问题。其他作品[23-28,45,47]共同考虑了沟通信息的学习以及是否沟通。此外，大多数作品[11, 24, 25,27, 45, 47, 51]利用环境奖励学习沟通。
相比之下，ATOC[23]和门控ACML[26]建议使用通过和不通过通信生成的操作之间的Q值差异，如果差异高于阈值，则标记有价值的消息。然后执行分类任务以决定是否进行通信。
与ATOC和门控ACML类似，I2C[28]还训练分类器来确定是否通信，同时使用两个智能体之间的偶然效应，而不是Q差，以及标记有效通信的阈值。

Differentiable（可微的）：在这一类中，通过反向传播来自被通信者的梯度来改善通信。如果预定义了通信策略，例如通过完全通信[11,12,20,21,34,36,37,43,48-50]，通过与附近的智能体通信[29,32,33,38,44,46]，或通过固定阈值过滤通信（不训练分类器）[39,40]，智能体将只通过反向传播学习消息的内容。最近的工作[13,14,22]通过使用有偏梯度估计器（如Gumbel-softmax技巧[53]）来规避不可微通信行为，这需要额外的参数调整。具体来说，Diff Discrete[49]通过接收到的离散化消息和（独立的）随机信道噪声来重建实值消息，该噪声能够估计和计算导数。

3.8，训练计划

该维度决定了如何在通信系统中利用从智能体处收集的经验（即观察、行动、奖励和消息）。我们可以使用一种分散的方式，用各自的经验来训练每个智能体的模型。通过访问所有智能体的整体经验，还可以集中训练智能体，最终获得一个单一模型来控制所有智能体。然而，分散学习和集中学习都有各自的问题。分散式学习需要应对一个非平稳的环境，这是由不断变化和适应的主体造成的。相比之下，集中学习面临着一个固定的环境，而大型联合策略空间可能太难搜索。作为一种折衷方式，集中训练和分散执行（CTDE）[11,54]逐渐成为MARL的标准训练计划，智能体在使用中央信息指导的同时学习当地策略。我们根据如何利用智能体的经验对训练计划的近期工作进行分类（总结见表9）。

表9：

Types Subtypes Methods
Decentralized Learning MAGNet-SA-GS-MG [46]; MADDPG-M [47]; DCC-MD [48];Agent-Entity Graph [29]; NeurComm [32]; IP [33];
CTED Individual
Parameters MS-MARL-GCM [50]; SchedNet [25]; IMAC [21]; Gated-ACML[26]; GAXNet [44];
Parameter
Sharing DIAL [11]; RIAL [11]; CommNet [12]; BiCNet [36]; ATOC [23];DGN [38]; TarMAC [20]; IC3Net [24]; VBC [39]; GA-Comm [22];LSC [45]; Diff Discrete[49]; I2C [28]; ETCNet [27]; Variable-length Coding [43]; TMC [40]; HAMMER [51]; MAGIC [13];FlowComm [14];
Concurrent MD-MADDPG [37]; IS [34];

Centralized Learning（集中学习）：如图3a所示，经验被收集到一个中央单元中，然后学习控制所有智能体。根据我们的观察，最近的工作并没有假设在环境中表演时有一个中央控制器。

Decentralized Learning（分散学习）：如图3b所示，经验是单独收集的，智能体人有独立的训练流程[29,32,33,46-48]。

图3：集中和分散学习

CTDE：在CTDE中，所有智能体的经验都可用于优化。根据所有经验计算的梯度用于指导当地策略的学习，从而实现分散执行（在环境中）。此外，参数共享[11]对于提高数据效率至关重要，其中一组参数（即Q函数或策略）在智能体之间共享，而不是在不同的过程中学习。尽管如此，智能体仍然能够显示各种行为，因为他们最有可能在每个时间步收到不同的观察结果。基于这些发现，我们进一步将最近的作品分为以下几个亚组。

（1）单个（策略）参数：在这种情况下，地方策略有单独的参数集，而中央单位将收集所有经验，以提供梯度等全局信息和指导，如图4a所示。我们可以使用策略梯度算法（例如，使用强化[50]）或基于演员-评论家的方法来训练整个系统。[21, 25, 26, 44]

（2）参数共享：通过参数共享，所有本地策略（或本地值函数）将使用一组参数，如图4b所示。在这种情况下，通常会使用类似DQN的算法、基于角色-批评的方法以及带有加强的策略梯度。如果采用类似DQN的算法，则将学习局部Q函数以利用所有经验[11,38,45]，或使用额外的全局Q函数来指导学习[39,40]。如果使用基于参与者-批评家的方法，则共享参与者（即策略模型）将被训练为使用所有观察-动作对，并从中心批评家处接收梯度指导[13,14,20,23,27,28,36,43,49,51]。带有强化的政策梯度可以用演员评论家代替，同时要求在剧集中获得抽样奖励[12,22,24]。

（3）同时：如果禁止将所有体验存储在一起，那么如果假定智能体观察到其他智能体的行为和观察结果，那么智能体可以备份所有经验，它与分散学习不同。然后，每个本地策略将保留一组单独的参数，同时接收包含全局信息的指导，如图4c所示。并发CTDE通常使用基于参与者-批评者的方法，其中每个智能体都有自己的中心批评者来指导其本地策略[34,37]。

图4：三种类型的CTDE方案

3.9，控制目标

通过指定奖励配置，受控智能体可以实现预期目标和兴趣。智能体的涌现行为可以归纳为三种类型：合作型、竞争型和混合型[55,56]，它们对应于不同的奖励配置和学习目标。我们注意到，一些作品已经在不止一个场景上进行了测试，以展示其灵活性和可扩展性[13、20、24、38、45]。我们根据学习主体中出现的不同奖励配置的行为对这一维度的近期研究进行了分类（总结见表10）。

表10：受控目标的类别

Types Configurations Methods
Cooperative Global Rewards DIAL [11]; RIAL [11]; CommNet [12]; MAGNet-SA-GS-MG
[46]; MADDPG-M [47]; SchedNet [25]; Agent-Entity Graph
[29]; VBC [39]; IMAC [21]; Gated-ACML [26]; LSC [45]; Diff
Discrete[49]; I2C [28]; TMC [40]; GAXNet [44];
Local Rewards BiCNet [36]; DGN [38]; IC3Net [24]; MD-MADDPG [37]; DCC-
MD [48]; GA-Comm [22]; NeurComm [32]; IP [33]; ETCNet
[27]; Variable-length Coding [43];
Global or Local
Rewards MS-MARL-GCM [50]; ATOC [23]; TarMAC [20]; IS [34]; HAM-
MER [51]; MAGIC [13]; FlowComm [14];
Competitive Conflict Rewards IC3Net [24];
Mixed Self-interested
Rewards DGN [38]; TarMAC [20]; IC3Net [24]; LSC [45]; MAGIC [13];

Cooperative（合作）：在合作场景中，智能体有动力进行沟通，以实现更好的团队绩效。一组智能体可以获得共享奖励[11-14,20,21,23,25,26,28,29,34,39,40,44-47,49-51]，这不考虑每个智能体的贡献。智能体还可以获得本地奖励，额外设计的奖励取决于队友的集体表现[22,24,36–38,43,48,50,51]，惩罚碰撞[13,14,22,23,27,34,38,48]，或与邻居分享奖励[32,33]，以鼓励合作。

Competitive（竞争）：如果智能体需要为有限的资源或相同的对象相互竞争，则为其分配对手学习目标，该目标试图最大化其自身的累积回报，同时最小化其对手的回报。星际争霸[39,40,57]是最受欢迎的测试环境之一，涉及多个竞争团队。然而，大多数作品控制着一个智能体团队，因此超出了我们的兴趣范围。根据我们的观察，只有一项工作，即IC3Net[24]，它测试具有对手奖励的竞争场景。IC3Net表明，竞争对手只有在盈利的情况下才能学会沟通，例如，在达到目标之前。

Mixed（混合）：对于我们关心自利智能体的MAS，不依赖其他智能体的个人奖励可以分配给每个智能体[13,20,24,38,45]。因此，在学习过程中，合作和竞争行为可能共存。具体地说，DGN[38]考虑了一个游戏，该游戏的玩家通过吃食物获得正奖励，但通过攻击其他玩家获得更高的奖励。通过通信，智能体可以学习协作共享资源，而不是相互攻击。IC3Net[24]、TarMAC[20]和MAGIC[13]是在捕食者-猎物的混合版本上进行评估的，特工只有在必要时才学会沟通。

4，讨论与结论

我们确定了9个维度来分析和比较不同的Comm-MARL系统，研究人员可以从中开发自己的Comm-MARL系统。尽管这个地区很繁荣，但仍有一些问题需要进一步考虑和解决。

首先，关于Comm MARL的最新研究可以总结为使用发送者-接收者或发送者-代理-接收者范式来实现通信，也就是说，假设智能体将有关其学习或观察的一些知识告知其他人。这对于学习来说很方便，因为梯度可以很容易地从交流者那里反向传播。然而，智能体可以从其他人那里获取特定信息。例如，Xuan等人[58]总结说，智能体可以告诉、查询或同步他们的知识，这显示了更多类型的通信。

第二，如第3.6节所述，对于要求低通信成本和可靠通信的场景，通信约束起着重要作用，需要进一步探索，并与实际应用相结合。

第三，评估通信协议的效果是一件棘手的事情，因为很难识别性能的提高是由于通信的消息还是在环境中执行的操作。

在沟通学习方面，我们发现学习沟通协议有两类，要么是强化的，要么是差异的。然而，强化方式需要人力来设计适当的学习反馈，而差异化方式可能会面临每个智能体如何贡献共享奖励的问题。我们需要开发更复杂、更有效的学习交流方式。最后但并非最不重要的一点是，参数共享在最近的工作中非常流行，然而，它假设了同质学习模型。如何为异构智能体开发一个Comm MARL系统还没有得到很好的探索。

更多推荐

多智能体通信：基于通信的多智能体强化学习研究综述

本文发布于:2023-06-27 08:14:22，感谢您对本站的认可！

本文链接:https://www.elefans.com/category/jswz/34/908627.html

通信智能

上一篇：【人工智能】智能体
下一篇： iTunes App 提交无效的二进制问题

发布评论取消回复

评论列表（有 0 条评论）

多智能体通信：基于通信的多智能体强化学习研究综述

多智能体通信：基于通信的多智能体强化学习研究综述

1，引言

2，相关工作

3，提出规模

3.1，通信类型

3.2，通信策略

3.3，通信内容

3.4，消息组合

3.5，内部整合

3.6，通信限制

3.7，通信学习

3.8，训练计划

3.9，控制目标

4，讨论与结论

发布评论取消回复

最近发表

热门文章

标签列表

方面	针对问题
通信类型	要与哪种类型的智能体进行通信？
通信策略	何时以及如何在智能体之间建立通信链接？
通信内容	分享那些信息？
消息组合	如何组合收到的消息？
内部集成	如何将组合信息整合到学习模型中？
沟通障碍	如何满足现实需求？
沟通学习	如何训练和改善沟通？
训练方式	如何利用从智能体收集的经验？
控制目标	在交流中需要什么样的行为？

Types	Subtypes	Methods
Agent in the MAS	Nearby Agents	DGN [38]; MAGNet-SA-GS-MG [46]; Agent-Entity Graph [29]; LSC[45]; NeurComm [32]; IP [33]; FlowComm [14]; GAXNet [44];
Agent in the MAS	Other Agents	DIAL [11]; RIAL [11]; CommNet [12]; BiCNet [36]; TarMAC [20]; MADDPG-M [47]; IC3Net [24]; SchedNet [25]; DCC-MD [48]; VBC [39]; Diff Discrete[49]; I2C [28]; IS [34]; ETCNet [27]; Variable- length Coding [43]; TMC [40];
Proxy		MS-MARL-GCM [50]; ATOC [23]; MD-MADDPG [37]; IMAC [21]; GA-Comm [22]; Gated-ACML [26]; HAMMER [51]; MAGIC [13];

Types	Methods
Existing Knowledge	DIAL [11]; RIAL [11]; CommNet [12]; BiCNet [36]; MS-MARL-GCM [50]; DGN [38]; TarMAC [20]; MAGNet-SA-GS-MG [46]; MADDPG-M [47]; IC3Net [24]; MD-MADDPG [37]; SchedNet [25]; DCC-MD [48]; Agent-Entity Graph [29]; VBC [39]; IMAC [21]; GA-Comm [22]; Gated-ACML [26]; LSC [45]; Diff Discrete[49]; I2C [28];ETCNet [27]; Variable-length Coding [43]; TMC [40]; HAMMER [51]; MAGIC [13];FlowComm [14]; GAXNet [44];
Imagined Future Knowledge	ATOC [23]; NeurComm [32]; IP [33]; IS [34];

Types	Methods
Concatenation	DIAL [11]; RIAL [11]; MADDPG-M [47]; SchedNet [25]; Diff Discrete[49]; IS [34]; ETCNet [27]; Variable-length Coding [43];
Equally Valued	CommNet [12]; IC3Net [24]; VBC [39]; FlowComm [14];
Unequally Valued	BiCNet [36]; MS-MARL-GCM [50]; ATOC [23]; DGN [38]; TarMAC [20]; MAGNet- SA-GS-MG [46]; MD-MADDPG [37]; DCC-MD [48]; Agent-Entity Graph [29]; IMAC [21]; GA-Comm [22]; Gated-ACML [26]; LSC [45]; NeurComm [32]; IP [33];I2C [28]; TMC [40]; HAMMER [51]; MAGIC [13]; GAXNet [44];

ypes	Methods
Policy-level	CommNet [12]; MS-MARL-GCM [50]; ATOC [23]; MAGNet-SA-GS-MG [46];IC3Net [24]; MD-MADDPG [37]; SchedNet [25]; IMAC [21]; GA-Comm [22]; Gated-ACML [26]; Diff Discrete[49]; IP [33]; I2C [28]; IS [34]; ETCNet [27]; Variable-length Coding [43]; HAMMER [51]; FlowComm [14]; GAXNet [44];
Value-level	DIAL [11]; RIAL [11]; DGN [38]; DCC-MD [48]; VBC [39]; LSC [45]; TMC [40];
Policy-level and Value-level	BiCNet [36]; TarMAC [20]; MADDPG-M [47]; Agent-Entity Graph [29]; NeurComm[32]; MAGIC [13];

Types	Methods
Limited Bandwidth	DIAL [11]; RIAL [11]; SchedNet [25]; VBC [39]; IMAC [21]; Gated-ACML [26]; ETC-Net [27]; Variable-length Coding [43]; TMC [40];
Noisy Channel	DIAL [11]; Diff Discrete[49];
Shared Medium	MD-MADDPG [37]; SchedNet [25];

Types	Methods
Reinforced	RIAL [11]; ATOC [23]; MADDPG-M [47]; IC3Net [24]; SchedNet [25]; Gated-ACML [26]; LSC [45]; I2C [28]; ETCNet [27]; HAMMER [51];
Differentiable	DIAL [11]; CommNet [12]; BiCNet [36]; MS-MARL-GCM [50]; DGN [38]; TarMAC [20]; MAGNet-SA-GS-MG [46]; MD-MADDPG [37]; DCC-MD [48]; Agent-Entity Graph [29]; VBC [39]; IMAC [21]; GA-Comm [22]; Diff Discrete[49]; NeurComm [32]; IP [33]; IS [34]; Variable-length Coding [43]; TMC [40]; MAGIC [13]; Flow- Comm [14]; GAXNet [44];

Types	Subtypes	Methods
Decentralized Learning		MAGNet-SA-GS-MG [46]; MADDPG-M [47]; DCC-MD [48];Agent-Entity Graph [29]; NeurComm [32]; IP [33];
CTED	Individual Parameters	MS-MARL-GCM [50]; SchedNet [25]; IMAC [21]; Gated-ACML[26]; GAXNet [44];
	Parameter Sharing	DIAL [11]; RIAL [11]; CommNet [12]; BiCNet [36]; ATOC [23];DGN [38]; TarMAC [20]; IC3Net [24]; VBC [39]; GA-Comm [22];LSC [45]; Diff Discrete[49]; I2C [28]; ETCNet [27]; Variable-length Coding [43]; TMC [40]; HAMMER [51]; MAGIC [13];FlowComm [14];
	Concurrent	MD-MADDPG [37]; IS [34];

Types	Configurations	Methods
Cooperative	Global Rewards	DIAL [11]; RIAL [11]; CommNet [12]; MAGNet-SA-GS-MG [46]; MADDPG-M [47]; SchedNet [25]; Agent-Entity Graph [29]; VBC [39]; IMAC [21]; Gated-ACML [26]; LSC [45]; Diff Discrete[49]; I2C [28]; TMC [40]; GAXNet [44];
	Local Rewards	BiCNet [36]; DGN [38]; IC3Net [24]; MD-MADDPG [37]; DCC- MD [48]; GA-Comm [22]; NeurComm [32]; IP [33]; ETCNet [27]; Variable-length Coding [43];
	Global or Local Rewards	MS-MARL-GCM [50]; ATOC [23]; TarMAC [20]; IS [34]; HAM- MER [51]; MAGIC [13]; FlowComm [14];
Competitive	Conflict Rewards	IC3Net [24];
Mixed	Self-interested Rewards	DGN [38]; TarMAC [20]; IC3Net [24]; LSC [45]; MAGIC [13];