强化学习之多智能体（Multi-Agent）强化学习|电子爱好者

admin管理员组
文章数量:1565292

参考

1、多智能体强化学习入门（一）——基础知识与博弈
2、《Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments》论文解读
3、多智能体强化学习相关论文总结归纳

简介

一个随机博弈可以看成是一个多智能体强化学习过程，在随机博弈中假定每个状态的奖励矩阵是已知的，不需要学习。而多智能体强化学习则是通过与环境的不断交互来学习每个状态的奖励值函数，再通过这些奖励值函数来学习得到最优纳什策略。

在多智能体强化学习算法中，两个主要的技术指标为合理性与收敛性。

合理性（rationality）是指在对手使用一个恒定策略的情况下，当前智能体能够学习并收敛到一个相对于对手策略的最优策略。

收敛性（convergence）是指在其他智能体也使用学习算法时，当前智能体能够学习并收敛到一个稳定的策略。通常情况下，收敛性针对系统中的所有的智能体使用相同的学习算法。

示例

定义一个2*2的网格博弈，两个智能体分别表示为 P1 和 P2 ，1的初始位置在左下角，2的初始位置在右上角，每一个智能体都想以最快的方式达到G标志的地方。从初始位置开始，每个智能体都有两个动作可以选择。只要有一个智能体达到G则游戏结束，达到G的智能体获得奖励10，奖励折扣率为0.9。虚线表示栏杆，智能体穿过栏杆的概率为0.5。该随机博弈一共包含7个状态。这个博弈的纳什均衡策略是，每个智能体到达邻居位置而不穿过栏杆。

在状态 s1 下采取了行动（right, left），则可以得到如下的状态值函数：

由 V(s1) 我们可以计算动作状态值函数：

最终得到的Q-Table为：

求解上述矩阵博弈就可得到多智能体强化学习的策略

MARL基础算法

1、Minimax-Q

Minimax-Q算法应用于两个玩家的零和随机博弈中。使用minimax方法构建线性规划来求解每个特定状态s的阶段博弈的纳什均衡策略。算法名字中的Q，指的是借用Q-learning中的TD方法来迭代学习状态值函数或动作-状态值函数。

在两个玩家的零和随机博弈中，给定一个状态s，则第i个智能体的状态值函数 V(s) 定义为：

其中，-i 表示智能体 i 的对手，Q(s,ai,a-i)为联合动作状态值函数。这个式子的意义是：每个智能体i 最大化在与对手-i 博弈中最差情况下的期望奖励值。在多智能体强化学习中，Q是未知的，所以借用 Q-learning 来逼近真实的Q值，再使用线性规划求解出状态s处的纳什均衡策略。算法流程如下：

理想情况下，算法能够对每一个状态-动作对访问无限次，则算法能够收敛到纳什均衡策略。
但是在上述算法中存在几个缺点：

在第5步中需要不断求解一个线性规划，这将造成学习速度的降低，增加计算时间。
为了求解第5步，智能体 i 需要知道所有智能体的动作空间，这个在分布式系统中将无法满足。
只满足收敛性，不满足合理性。假设对手使用的不是纳什均衡策略，而是一个较差的策略，则当前智能体i 并不能根据对手的策略学习到一个更优的策略。即该算法无法让智能体根据对手的策略来调节优化自己的策略，而只能找到随机博弈的纳什均衡策略。

2、Nash Q-Learning

Nash Q-Learning 将 Minimax-Q 从零和博弈扩展到多人一般和博弈。该算法需要观测其他所有智能体的动作 ai 与奖励值 ri，使用二次规划求解纳什均衡点。

Nash Q-Learning 算法在合作性均衡或对抗性均衡的环境中能够收敛到纳什均衡点，其收敛性条件是，在每一个状态s的阶段博弈中，都能够找到一个全局最优点或者鞍点。算法流程如下：

由于 Nash Q-Learning 在第5步也要进行二次规划，所以算法的速度收到了限制。同时该算法只满足收敛性，不满足合理性。即只能收敛到纳什均衡策略，不能根据其他智能体的策略来优化调剂自身的策略。

3、Friend-or-Foe Q-Learning

Friend-or-Foe Q-Learning 算法基于 Minimax-Q算法，将应用对象从零和博弈拓展到一般和博弈问题。

对一个智能体i，将其他所有的智能体分为两组：一组为i的friend，帮助i一起最大化其奖励回报；另一组为i的foe，对抗i并降低i的奖励回报。因此对于每个智能体而言，都会存在两组智能体，一般和博弈问题也就转化为了两个智能体组的零和博弈。算法过程如下：

但是由于FFQ算法也需要利用线性规划，导致算法的整体学习速度较慢。

4、WoLF Policy Hill-Climbing

由于Minimax-Q、Nash Q-Learning、Friend-or-Foe Q-Learning三种算法在维护Q函数时，需要维护所有智能体的假设动作空间Ai 和状态空间S，即需要一个 SA^n 大小的空间去存储Q值。而 WoLF-PHC 算法只用知道自己的动作来维护Q值函数，需要的空间大小为 SA。

WoLF-PHC是将“Win or Learn Fast”规则与 policy hill-climbing算法结合：

WolF：当智能体做的比期望值好的时候，小心缓慢的调整参数；当智能体做的比期望值差的时候，加快步伐调整参数。
PHC：一种单智能体在稳定环境下的一种学习算法。该算法的目标是增大能够得到最大累积期望的动作的选取概率。该算法具有合理性，能够收敛到最优策略。其算法流程如下：

为了将PHC应用于动态环境中，将WoLF与PHC算法结合，使得智能体获得的奖励在比预期差时，能够快速调整适应其他智能体策略变化，当比预期好时谨慎学习，也给其他智能体适应策略变化的时间。

WoLF-PHC算法能够收敛到纳什均衡策略，并且具备合理性，当其他智能体采用某个固定策略时，其也能收敛到目前状况下的最优策略，而不像前三种算法收敛到一个可能效果不好的纳什均衡策略处。算法流程如下：

算法评价：

在WoLF-PHC算法中，使用一个可变的学习速率 delta
来实现WoLF效果。当策略效果比平均值差时使用delta-l，当策略效果比平均值要好时使用delta-w，并且delta-l>delta-w。
WoLF-PHC算法不用观测其他智能体的策略、动作及奖励值，需要更少的空间去记录Q值。
WoLF-PHC算法是通过PHC算法进行学习改进策略的，所以不需要使用线性规划或者二次规划求解纳什均衡，算法速度得到了提高。

注：虽然WoLF-PHC算法在实际应用中取得了非常好的效果，并且能够收敛到最优策略。但是其收敛性在理论上一直没有得到证明。

本文标签：智能 Multi Agent

版权声明：本文标题：强化学习之多智能体（Multi-Agent）强化学习内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://www.elefans.com/dianzi/1726704532a1081511.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

强化学习 之 多智能体（Multi-Agent）强化学习

参考

简介

示例

MARL基础算法

1、Minimax-Q

2、Nash Q-Learning

3、Friend-or-Foe Q-Learning

4、WoLF Policy Hill-Climbing

更多相关文章

基于STM32设计的智能门锁(手机APP开锁、随机密码开锁、按键开锁)

物联网毕设 -- 智能门禁系统（STM32+人脸+RFID+密码+APP+WIFI）

基于STM32的智能婴儿床控制系统设计(手机APP+蓝牙无线控制)(210)

【STM32项目】基于嵌入式智能网控微嵌式远距操控平台（完整工程资料源码）

智能电视老是无服务器,只需简单几招，轻松解决智能电视无法连接WIFI问题

阿尔兹海默病智能诊断

科技向善，腾讯“守护者智能反诈中枢”在行动

android手表怎样刷机,智能手表是怎样一键刷机的

天猫精灵智能设备对接(10) nodumcu固件编译

android电视盒子软件安装,安卓电视怎么安装软件 智能电视软件安装方法教程

游览器user agent 及手机UserAgent库查询工具

腾达无线打印服务器,(原创)腾达PA + PA3电力猫扩展无线信号 路由器LAN口智能扩展...

tendaac18虚拟服务器,千兆智能路由如何快速设置？以腾达AC18为例

智能计算机 英语作文,关于电脑的英语作文

inode客户端连接成功上不了网_iNode智能客户端常见问题及解决办法

探索智能教育的未来：神经认知诊断系统 Neural Cognitive Diagnosis

Cognitive Graph for Multi-Hop Reading Comprehension at Scale

多跳机器阅读理解Cognitive Graph for Multi-Hop Reading Comprehension at Scale

输入法的新时代：搜狗、讯飞、百度鏖战智能语音

基于51单片机智能WIFI无线APP防盗电子锁密码锁设计定制17-183

发表评论

推荐文章

win7一键修复所有dll缺失！全面介绍电脑DLL文件丢失修复过程！

计算机页面里的坚果云删不了怎么回事,坚果云如何卸载？卸载坚果云的几种方法...

腾讯云服务器重装系统后,使用SSH登录报错WARNING: REMOTE HOST IDENTIFICATION HAS CHANGED

AutoCAD 卸载工具：彻底清理，轻松重装

ubantu下谷歌浏览器安装包

热门文章

Ubuntu16.04更新完NVIDIA驱动后，重启电脑进入不了系统，一直处于登录界面

从 VI 编辑器谈操作系统起源及编辑器本质

跟着小马哥学系列之 Spring IoC（进阶篇：Environment）

中兴通讯uSmart云电脑，开启安全办公新时代

Linux系统卸载重装JDK

MAC如何重装系统（怒冲30大洋，才拿到的教程～，收藏点赞兄弟们）

谷歌浏览器的粗略使用方法

解决Mac使用Win10局域网共享打印机没反应问题

打印机常见问题一之“脱机”

打印机共享的设置方法

最新文章

【最新Globalmapper中文入门到精通系列实验图文教程】（附配套实验数据+中文安装包23+24+25，持续同步更新）

acme cadsee 2020

CAD2012

使用.NET开发AutoCAD——设计师不做画图匠（一）

基于TOP256Y电源原理与PI Expert设计软件

非常实用的电脑软件推荐

halcon教程之VisionPro软件和Halcon软件 的详细对比

lisp提取长方形坐标_求修改lisp程序，如何提取CAD中多个点的坐标，（本人想提取UCS坐标系）另外只需要提取X,Y值，不要Z...

从欧美到亚洲，2019年全球有多少个软件工程师?

6个终身受益的免费自学网站，每天花15分钟，效果立竿见影！

企业防泄密一定要做！2024文件加密软件

企业软件资产和License管理遇到的问题和解决办法

在一周内学会使用 AUTO CAD

solidwork软件安装显示失败问题处理

世界坐标系前端分类

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

强化学习之多智能体（Multi-Agent）强化学习

android电视盒子软件安装,安卓电视怎么安装软件智能电视软件安装方法教程

腾达无线打印服务器,(原创)腾达PA + PA3电力猫扩展无线信号路由器LAN口智能扩展...

智能计算机英语作文,关于电脑的英语作文

halcon教程之VisionPro软件和Halcon软件的详细对比

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载