Reinforcement Learning: An Introduction Second Edition

编程入门行业动态更新时间:2024-10-24 00:29:31

Reinforcement <a href=https://www.elefans.com/category/jswz/34/1769507.html style= Learning: An Introduction Second Edition"/>

Reinforcement Learning: An Introduction Second Edition

14 Psychology

15 Neuroscience

16 Applications and Case Studies

16.1 TD-Gammon

学习玩西洋双陆棋(backgammon)。算法采用了一种非线性的 TD( λ \lambda λ) ，使用标准的多层神经网络作为函数逼近器。通过反向传播TD误差来训练网络。

16.2 Samuel’s Checkers Player

16.5 Human-level Video Game Play

Deep Q-Network.

问题特性：无模型和离轨策略。半梯度的Q-learning + 多层神经网络。经验回访方法。

16.6 Mastering the Game of Go

这里描述了 AlphaGo 和一个名为 AlphaGo Zero 的后继程序。除了强化学习之外，AlphaGo还依靠从人类专家棋谱的大型数据库中进行监督学习，而AlphaGo Zero只使用了强化学习。

AlphaGo 和 AlphaGo Zero 是 Tesauo 的 TD-Gammon 的继承者，而 TD-Gammon 是 Samuel 跳棋程序的继承者。所有这些程序都包括在模拟的自我对局中进行强化学习。

16.6.1 AlphaGo

用改进的 MCTS 进行走子。

16.6.2 AlphaGo Zero

在整个强化学习期间使用 MCTS 进行走子。相比之下，AlphaGo 只在在线对局时使用 MCTS ，在学习期间没有。

AlphaZero.

16.9 Mastering Stratego, the classic game of imperfect information

DeepNash：AlphaGo/AlphaGo Zero/AlphaZero 的继承者，于 2022.12.1 发布。Stratego 是一款不完全信息的经典游戏。DeepNash 通过结合博弈论和无模型深度强化学习从头开始学习玩 Stratego 。

17 Frontiers

17.1 General Value Functions and Auxiliary Tasks

对“收益”的概念的推广：对任意信号的预测。不仅仅是对未来收益之和进行预测，也可以对一个内部的经过复杂处理的信号（例如另一个预测值）的未来的值之和进行预测。无论什么信号在类似于价值函数的预测中被累加起来，我们都称其为这种预测的累积量。我们把它形式化为一个累积信号Ct。使用它，我们得到广义价值函数（general value function, GVF）。注：对广义的收益的累积使我们得到了广义价值函数，此时收益被累积量代替。

和传统的价值函数一样，广义价值函数也可以用参数化形式逼近（不同的累积量C会有一个不同的参数），用书中提出的学习近似价值函数的方法学出来，并通过最大化预测值来学习策略。通过这种方式，智能体可以学会预测和控制大量不同类型的信号，而不仅仅是长期收益。

为什么预测和控制长期收益以外的信号可能是有用的？Auxiliary tasks：预测和控制长期收益以外的信号。预测和控制多种多样的信号的能力可以构成一种强大的环境模型。正如我们在第八章看到的，一个好的模型可以使智能体更高效地获得收益。注：比如在Atari游戏中，把背景音乐作为辅助任务进行学习，可以帮助更高效地获得奖励。首先让我们考虑多样的预测可以对强化学习智能体有帮助的两种简单的方式。

辅助任务可以帮助完成主任务的一个简单方式是，它们可能需要一些与主要任务相同的表征。

学习辅助任务可以提高性能的另一个简单方式，可以通过类比古典条件反射这一心理学现象得到最好的解释。

最后，也许辅助任务最重要的作用是超越我们在本书中所做的假设：状态表征是固定的，并且智能体知道这些表征。为了解释这个作用，我们首先要退后几步，来了解这个假设的重要性以及去除它所带来的影响。