深入理解强化学习——智能体的类型：基于价值的智能体和基于策略的智能体

编程入门行业动态更新时间:2024-10-26 12:26:23

深入理解强化学习——<a href=https://www.elefans.com/category/jswz/34/1770939.html style= 智能体的类型：基于价值的智能体和基于策略的智能体"/>

深入理解强化学习——智能体的类型：基于价值的智能体和基于策略的智能体

分类目录：《深入理解强化学习》总目录
相关文章：
· 智能体的类型：基于价值的智能体和基于策略的智能体
· 智能体的类型：有模型强化学习智能体与免模型强化学习智能体

根据智能体学习的事物不同，我们可以把智能体进行归类。基于价值的智能体（Value-based agent）显式地学习价值函数，隐式地学习它的策略。策略是其从学到的价值函数里面推算出来的。基于策略的智能体（Policy-based Agent）直接学习策略，我们给它一个状态，它就会输出对应动作的概率。基于策略的智能体并没有学习价值函数。把基于价值的智能体和基于策略的智能体结合起来就有了Actor-Critic智能体（Actor-Critic Agent）。这一类智能体把策略和价值函数都学习了，然后通过两者的交互得到最佳的动作。本文就将介绍基于价值的智能体与基于策略的智能体的区别。

对于一个状态转移概率已知的马尔可夫决策过程，我们可以使用动态规划算法来求解。从决策方式来看，强化学习又可以划分为基于策略的方法和基于价值的方法。决策方式是智能体在给定状态下从动作集合中选择一个动作的依据，它是静态的，不随状态变化而变化。在基于策略的强化学习方法中，智能体会制定一套动作策略（确定在给定状态下需要采取何种动作），并根据这个策略进行操作。强化学习算法直接对策略进行优化，使制定的策略能够获得最大的奖励。而在基于价值的强化学习方法中，智能体不需要制定显式的策略，它维护一个价值表格或价值函数，并通过这个价值表格或价值函数来选取价值最大的动作。基于价值迭代的方法只能应用在不连续的、离散的环境下（如围棋或某些游戏领域），对于动作集合规模庞大、动作连续的场景（如机器人控制领域），其很难学习到较好的结果（此时基于策略迭代的方法能够根据设定的策略来选择连续的动作）。基于价值的强化学习算法有Q学习（Q-learning）、Sarsa 等，而基于策略的强化学习算法有策略梯度（Policy Gradient，PG）算法等。此外，Actor-Critic算法同时使用策略和价值评估来做出决策。其中，智能体会根据策略做出动作，而价值函数会对做出的动作给出价值，这样可以在原有的策略梯度算法的基础上加速学习过程，取得更好的效果。

参考文献：
[1] 张伟楠, 沈键, 俞勇. 动手学强化学习[M]. 人民邮电出版社, 2022.
[2] Richard S. Sutton, Andrew G. Barto. 强化学习（第2版）[M]. 电子工业出版社, 2019
[3] Maxim Lapan. 深度强化学习实践（原书第2版）[M]. 北京华章图文信息有限公司, 2021
[4] 王琦, 杨毅远, 江季. Easy RL：强化学习教程 [M]. 人民邮电出版社, 2022

更多推荐

深入理解强化学习——智能体的类型：基于价值的智能体和基于策略的智能体

本文发布于:2023-12-06 16:53:42，感谢您对本站的认可！

本文链接:https://www.elefans.com/category/jswz/34/1668215.html