Reinforcement Learning: An Introduction Second Edition

编程入门 行业动态 更新时间:2024-10-24 00:29:31

Reinforcement <a href=https://www.elefans.com/category/jswz/34/1769507.html style=Learning: An Introduction Second Edition"/>

Reinforcement Learning: An Introduction Second Edition

14 Psychology

15 Neuroscience

16 Applications and Case Studies

16.1 TD-Gammon

学习玩西洋双陆棋(backgammon)。算法采用了一种非线性的 TD( λ \lambda λ) ,使用标准的多层神经网络作为函数逼近器。通过反向传播TD误差来训练网络。

16.2 Samuel’s Checkers Player

16.5 Human-level Video Game Play

Deep Q-Network.

问题特性:无模型和离轨策略。半梯度的Q-learning + 多层神经网络。经验回访方法。

16.6 Mastering the Game of Go

这里描述了 AlphaGo 和一个名为 AlphaGo Zero 的后继程序。除了强化学习之外,AlphaGo还依靠从人类专家棋谱的大型数据库中进行监督学习,而AlphaGo Zero只使用了强化学习。

AlphaGo 和 AlphaGo Zero 是 Tesauo 的 TD-Gammon 的继承者,而 TD-Gammon 是 Samuel 跳棋程序的继承者。所有这些程序都包括在模拟的自我对局中进行强化学习。

16.6.1 AlphaGo

用改进的 MCTS 进行走子。

16.6.2 AlphaGo Zero

在整个强化学习期间使用 MCTS 进行走子。相比之下,AlphaGo 只在在线对局时使用 MCTS ,在学习期间没有。

AlphaZero.

16.9 Mastering Stratego, the classic game of imperfect information

DeepNash:AlphaGo/AlphaGo Zero/AlphaZero 的继承者,于 2022.12.1 发布。Stratego 是一款不完全信息的经典游戏。DeepNash 通过结合博弈论和无模型深度强化学习从头开始学习玩 Stratego 。

17 Frontiers

17.1 General Value Functions and Auxiliary Tasks

对“收益”的概念的推广:对任意信号的预测。不仅仅是对未来收益之和进行预测,也可以对一个内部的经过复杂处理的信号(例如另一个预测值)的未来的值之和进行预测。无论什么信号在类似于价值函数的预测中被累加起来,我们都称其为这种预测的累积量。我们把它形式化为一个累积信号Ct。使用它,我们得到广义价值函数(general value function, GVF)。注:对广义的收益的累积使我们得到了广义价值函数,此时收益被累积量代替。

和传统的价值函数一样,广义价值函数也可以用参数化形式逼近(不同的累积量C会有一个不同的参数),用书中提出的学习近似价值函数的方法学出来,并通过最大化预测值来学习策略。通过这种方式,智能体可以学会预测和控制大量不同类型的信号,而不仅仅是长期收益。

为什么预测和控制长期收益以外的信号可能是有用的?Auxiliary tasks:预测和控制长期收益以外的信号。预测和控制多种多样的信号的能力可以构成一种强大的环境模型。正如我们在第八章看到的,一个好的模型可以使智能体更高效地获得收益。注:比如在Atari游戏中,把背景音乐作为辅助任务进行学习,可以帮助更高效地获得奖励。首先让我们考虑多样的预测可以对强化学习智能体有帮助的两种简单的方式。

辅助任务可以帮助完成主任务的一个简单方式是,它们可能需要一些与主要任务相同的表征。

学习辅助任务可以提高性能的另一个简单方式,可以通过类比古典条件反射这一心理学现象得到最好的解释。

最后,也许辅助任务最重要的作用是超越我们在本书中所做的假设:状态表征是固定的,并且智能体知道这些表征。为了解释这个作用,我们首先要退后几步,来了解这个假设的重要性以及去除它所带来的影响。

17.2 Temporal Abstraction via Options

能否通过拉伸一个单一的MDP来学习不同时间尺度上的任务。

可以将策略的概念推广为为层次化策略(a hierarchical policy)。

17.3 Observations and State

部分可观测MDP(POMDP)。

预测状态表示(PSR)。

17.4 Designing Reward Signals

设计收益信号是所有强化学习应用的重要部分。

奖励稀疏问题。

模仿学习和逆强化学习。

优化算法。

17.5 Remaining Issues

更强大的参数化函数逼近方法。

学习特征表示的方法。表征学习和元学习。

使用可拓展的方法在学习到的环境模型中进行规划

自动化智能体的任务选择过程。

使用某种可计算的好奇心来推动行为和学习之间的相互作用。

开发足够安全的方法。

17.6 The Future of Artificial Intelligence

由于强化学习依赖于优化,因此它继承了所有优化方法的优点和缺点。

如何保证智能体可以得到足够多的经验以学习一个高性能的决策,同时又能保证不损害环境、其他智能体或者它本身?

更多推荐

Reinforcement Learning: An Introduction Second Edition

本文发布于:2024-03-23 17:04:21,感谢您对本站的认可!
本文链接:https://www.elefans.com/category/jswz/34/1740660.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文标签:Learning   Reinforcement   Edition   Introduction

发布评论

评论列表 (有 0 条评论)
草根站长

>www.elefans.com

编程频道|电子爱好者 - 技术资讯及电子产品介绍!