admin管理员组

文章数量:1653243

部分可观察MDP的深度循环Q学习

摘要:Deep Reinforcement Learning已经为复杂的任务提供了熟练的控制器。然而,这些控制器具有有限的存储器并且依赖于能够在每个决策点处感知完整的游戏屏幕。为了解决这些缺点,本文研究了通过用循环LSTM替换第一个后卷积完全连接层来向深度Q网络(DQN)添加并发性的效果。由此产生的深度循环Q网络(DRQN)虽然在每个时间步只能看到一个帧,但是能够在时间上成功地整合信息,并在标准Atari游戏上复制DQN的性能,并且部分观察到具有闪烁游戏屏幕的等效物。此外,当通过部分观察训练并使用逐步更完整的观测进行评估时,DRQN的性能随着可观察性而变化。相反,当通过全面观察训练并通过部分观察进行评估时,DRQN的性能降低到低于DQN。因此,给定相同的历史长度,重复性是在DQN的输入层中堆叠帧历史的可行替代方案,并且当学习玩游戏时,重复性不会带来系统优势,如果质量,经常性网络可以更好地适应评估时间观察结果的变化。

介绍

深度Q网络(DQN)已被证明能够在各种不同的Atari 2600游戏中学习人类级控制策略(Mnih等人,2015)。 忠实于他们的名字,DQNs学会估计从当前游戏状态中选择每个可能动作的Q值(或长期折扣回报)。 假设网络的Q值估计足够准确,则可以通过在每个时间步长选择具有最大Q值的动作来玩游戏。 学习策略从原始屏幕像素映射到动作,这些网络已被证明可以在许多Atari 2600游戏中实现最先进的性能。
然而,Deep Q-Networks在某种意义上是有限的,因为他们从有限数量的过去状态或Atari 2600的情况下的游戏屏幕学习映射。在实践中,DQN使用由agent遇到的最后四个状态组成的输入进行训练。 因此,DQN将无法掌握要求玩家记住过去比四个屏幕更远的事件的游戏。 换句话说,任何需要超过四帧记忆的游戏都将显示为非马尔可夫,因为未来的游戏状态(和奖励)不仅取决于DQN的当前输入。 游戏变成了部分可观察的马尔可夫决策过程(POMDP),而不是马尔可夫决策过程(MDP)。
现实世界的任务通常具有部分可观察性导致的不完整和嘈杂的状态信息。 如图1所示,只给出一个游戏画面,许多Atari 2600游戏都是POMDP。 一个例子是Pong游戏,其中当前屏幕仅显示桨和球的位置,但不显示球的速度。 了解球的行进方向是确定最佳桨位置的关键因素。
我们观察到,当给定不完整的状态观察时,DQN的性能下降,并且假设可以通过利用递归神经网络的进步来修改DQN以更好地处理POMDP。 因此,我们引入了深度循环Q网络(DRQN),它是长短期记忆(LSTM)(Hochreiter和Schmidhuber 1997)和深度Q网络的组合。最重要的是,我们证明DRQN能够处理部分可观察性,并且当用完全观察训练并用部分观察进行评估时,DRQN比DQN更好地处理信息丢失。 因此,随着观测质量的下降,重现性带来了好处。

Deep Q-Learning

强化学习关注的是学习与未知环境交互的代理的控制策略。 这种环境通常被形式化为马尔可夫决策过程(MDPs),由四元组(S,A,P,R)组成。在每个时间步t,与MDP交互的代理(agent)观察到状态st∈S,
并且选择动作at∈A,其确定奖励r t ~ R(s t,a t)和下一个状态s t + 1~P(s t,a t)。
Q-Learning(Watkins和Dayan 1992)是一种无模型的非策略算法,用于估计从给定状态执行动作的长期预期回报。 这些估计回报称为Q值。 较高的Q值表示动作a被判断为在状态s中产生更好的长期结果。 通过将当前Q值估计更新为观察到的奖励加上在结果状态s’中的所有动作a’上的最大Q值来迭代地学习Q值。

诸如Atari游戏之类的许多具有挑战性的领域具有太多的独特状态以维持每个S×A的单独估计。而是使用模型来近似Q值(Mnih等人2015)。 在深度Q学习的情况下,该模型是通过权重和偏差参数化的神经网络,统称为θ。 在给定状态输入的情况下执行正向通过之后,通过查询网络的输出节点在线估计Q值。这些Q值表示为Q(s,a |θ)。 现在,不再更新单个Q值,而是对网络参数进行更新,以最大限度地减少可微分损失函数:

由于|θ|≤| S×A |,神经网络模型自然地超越了它所训练的状态和动作。但是,由于同一网络正在生成用于更新其当前Q值的下一个状态目标Q值,因此这些更新可能会发生振荡或发散(Tsitsiklis and Roy 1997).Deep Q-Learning使用三种技术来恢复学习稳定性:首先,体验et =(st,at,rt,s t + 1)被记录在重放记忆库D中,然后在训练时间均匀地采样。其次,一个单独的目标网络Q为主网络提供更新目标,解耦由网络产生自己的目标产生的反馈.Q与主网络相同,除了它的参数θ-更新为匹配θ,每10,000次迭代。最后,诸如RMSProp(Tieleman和Hinton 2012)或ADADELTA(Zeiler 2012)的自适应学习速率方法维持每参数学习速率α,并根据该参数的梯度更新历史来调整α。此步骤用于弥补固定训练数据集的不足; D的不断变化的性质可能要求某些参数在达到看似固定点后再次开始变化。
在每次训练迭代i中,从重放记忆库D均匀地采样经验e t =(s t,a t,r t,s t + 1)。网络的丢失确定如下:

其中
是目标网络Q给出的陈旧更新目标。以这种方式进行的更新已经凭经验证明是易处理且稳定的。

部分可观察性

在现实世界的环境中,很少能够将系统的完整状态提供给代理甚至确定。换句话说,马尔可夫属性很少在现实世界环境中存在。部分可观察的马尔可夫决策过程(POMDP)通过明确承认代理接收的感觉仅仅是对基础系统状态的部分瞥见,更好地捕获了许多现实世界环境的动态。形式上,POMDP可以描述为6元组(S,A,P,R,Ω,O)。 S,A,P,R与以前一样是状态,动作,转换和奖励,除非现在代理不再知道真实系统状态,而是接收观察状态o∈Ω。根据概率分布o~O(s)从基础系统状态生成该观察结果。 Vanilla Deep Q-Learning没有明确的机制来破译POMDP的基本状态,只有在观察反映了潜在的系统状态时才有效。在一般情况下,由于Q(o,a |θ)≠ Q(s,a |θ),因此从观察中估计Q值是不好的。
我们的实验表明,向Deep Q-Learning添加 recurrency会让Q网络更好地估计基础系统状态,缩小Q(o,a |θ)和Q(s,a |θ)之间的差距。 换句话说,recurrent deep Q-networks可以更好地接近来自观测序列的实际Q值,从而在部分观察到的环境中产生更好的策略。

DRQN架构

为了隔离重复性的影响,我们最小化地修改了DQN的体系结构,仅用相同大小的重复LSTM层替换其第一个完全连接的层。 如图2所示,DRQN的架构采用单个84×84预处理图像。 该图像由三个卷积层处理(Cun等,1998),输出被馈送到完全连接的LSTM层(Hochreiter和Schmidhuber,1997)。 最后,线性层为每个动作输出Q值。 在训练期间,网络的卷积和重复部分的参数是从头开始共同学习的。 在尝试了几种变化后,我们确定了这种架构; 详见附录A.
图2:DRQN在游戏屏幕的单通道图像上进行三次卷积。 由LSTM层通过时间处理所得的激活。 最后两个时间步长显示在这里。 LSTM输出在通过完全连接的层后变为Q值。 卷积滤波器由具有尖顶的矩形子框表示。

稳定的周期性更新

更新循环卷积网络要求每个后向传递包含游戏屏幕和目标值的很多时间步长。 此外,LSTM的初始隐藏状态可以归零或从其先前的值前进。 我们考虑两种类型的更新:
Bootstrapped Sequential Updates(序列化更新):从重放记忆库中随机选择Episodes,并在Episode的开始开始更新,一直前进到Episode的结束。 每个时间点的targets是从目标Q网络Q’生成的。 RNN的 hidden state在整个 episode中继续进行。
Bootstrapped Random Updates(随机更新):从重放记忆库中随机选择Episodes,并且在Episode中的随机点处开始更新,并且仅进行展开迭代时间步(例如,一个backward call)。 每个时间点的targets是从目标Q网络Q’生成的。 RNN的初始状态在更新开始时归零。
顺序更新的优点是可以从剧集开头向前传送LSTM的隐藏状态。 然而,通过对完整剧集按顺序抽样经验,他们违反了DQN的随机抽样政策。
随机更新更好地遵循随机抽样经验的策略,但是,因此,LSTM的隐藏状态必须在每次更新开始时归零。 对隐藏状态进行调整使得LSTM更难以学习跨越更长时间尺度的函数,而不是通过时间反向传播所达到的时间步数。
实验表明,这两种类型的更新都是可行的,并且在一组游戏中产生具有相似性能的融合策略。 因此,为了限制复杂性,本文的所有结果都使用随机化更新策略。 我们希望所有呈现的结果都可以推广到顺序更新的情况。
在解决了深度循环Q网络的架构和更新之后,我们现在展示它如何在具有部分可观察性的域上执行。

Atari Games:MDP还是POMDP?

Atari 2600游戏的状态由128字节的控制台RAM完整描述。 然而,人类和代理人只观察控制台生成的游戏屏幕。 对于许多游戏,单个游戏屏幕不足以确定系统的状态。 DQN通过扩展状态表示来包含最后四个游戏屏幕来推断Atari游戏的完整状态。 之前POMDP的许多游戏现在都成为了MDP。 在(Mnih等人,2015年)调查的49个游戏中,作者在最后四个输入框架中无法识别任何部分可观察到的游戏。 由于在给定四个输入帧的情况下,探索的游戏是完全可观察的,我们需要一种方法来引入部分可观察性而不减少给予DQN的输入帧的数量。

闪烁的Atari游戏

为了解决这个问题,我们引入了Flickering Pong POMDP–对Pong经典游戏的修改,使得在每个时间步长,屏幕完全显示或完全模糊,概率为p = 0.5。 以这种方式模糊帧概率地引起Pong成为POMDP所需的观察的不完全记忆。
为了在闪烁乒乓的游戏中取得成功,有必要跨帧集成信息以估计相关变量,例如球的位置和速度以及桨的位置。 由于一半的帧在期望中被模糊,因此成功的玩家必须对几个可能连续的模糊输入的可能性具有鲁棒性。
也许游戏画面历史中最重要的机会是卷积检测物体速度的能力。 图3显示了游戏屏幕最大化不同卷积滤波器的激活,并确认10帧DQN滤波器确实检测到物体速度,尽管可能不如正常的未遮挡Pong可靠。



(d)图像序列最大化三个样本LSTM单位
图3:在Pong游戏中通过10帧DQN学习的卷积滤波器样本。 每行绘制输入帧,触发指定层中特定卷积滤波器的最大激活。 红色边界框说明了导致最大激活的输入图像部分。 第一卷积层中的大多数滤波器仅检测桨。 Conv2过滤器开始检测特定方向上的球运动,并且一些过滤器共同跟踪球和桨。 几乎所有的Conv3过滤器都可以跟踪球和桨的相互作用,包括偏转,球速和行进方向。 尽管一次看到一个单独的框架,但是单独的LSTM单元也分别检测到高水平事件:代理人丢失球,球从球拍反射,以及球的反射。 每个图像叠加代理看到的最后10帧,为更近的帧提供更多亮度。

值得注意的是,即使每个时间步长只有一个输入帧,DRQN也能很好地完成这项任务。 对于单帧,DRQN的卷积层不可能检测任何类型的速度。 相反,较高级别的复现层必须补偿闪烁的游戏屏幕和缺乏卷积速度检测。 图3d证实了LSTM层中的各个单元能够随时间整合嘈杂的单帧信息,以检测高级Pong事件,例如球员丢球,球在桨上反射,或球反射在墙上。
DRQN在最后十次步骤中使用反向传播进行训练。 因此,非经常性10帧DQN和经常性1帧DRQN都可以访问相同的游戏屏幕历史。 3因此,在处理部分可观察性时,在使用具有长观察历史的非复现深度网络或使用在每个时间步长用单个观察训练的循环网络之间存在选择。 本节中的结果表明,循环网络可以随时间整合信息,并作为在卷积网络的输入层中堆叠帧的可行替代方案。

标准Atari游戏评估

我们选择了以下九个Atari游戏进行评估:小行星和双重扣篮具有自然闪烁的精灵,使其成为复发学习的潜在候选人。 Beam Rider,Centipede和Chopper Command是射手。 Frostbite是一个类似于Frogger的平台游戏。 Ice Hockey and Double Dunk是体育比赛,需要定位球员,传球和射击冰球/球,并要求球员能够进攻和防守。保龄球需要在特定时间采取行动以引导球。 Pacman女士拥有闪烁的幽灵和强力药丸。
鉴于最后四帧输入,所有这些游戏都是MDP而不是POMDP。因此,没有理由期望DRQN优于DQN。实际上,表1中的结果表明,平均而言,DRQN大致与DQN一样。具体来说,我们对DQN的重新执行与原版相似,在九场比赛中的五场比赛中表现优于原版,但实现的成绩不到Centipede和Chopper Command原创得分的一半。 DRQN在Frostbite和Double Dunk游戏中的表现优于我们的DQN,但在Beam Rider的游戏中表现更差(图4)。 Frostbite游戏(图1b)要求玩家跳过所有四排移动的冰山并返回到屏幕顶部。在经过几次冰山之后,已经收集了足够的冰来在屏幕的右上方建造一个冰屋。随后玩家可以进入冰屋以进入下一级别。如图4所示,在12,000集之后,DRQN发现一个允许其可靠地超过第一级Frostbite的策略。有关实验细节,请参阅附录B.

MDP到POMDP泛化

可以在标准MDP上训练经常性网络,然后在评估时推广到POMDP吗? 为了解决这个问题,我们评估了DRQN和DQN在表1中所有9个游戏的闪烁等价物上得分最高的策略。图5显示,虽然两种算法由于缺少信息而导致性能显着下降,但DRQN捕获更多 其以前的性能比DQN跨越各个级别的闪烁。
我们得出结论,循环控制器对缺失信息具有一定程度的鲁棒性,即使是使用完整状态信息进行训练也是如此。

相关工作

以前,LSTM网络已被证明可以在使用政策梯度方法进行训练时解决POMDP(Wierstra等人,2007年)。 与策略渐变相反,我们的工作使用时差差异更新来引导动作值函数。 此外,通过联合训练卷积和LSTM层,我们可以直接从像素中学习,而不需要手工设计的功能。
LSTM已被用作优势函数逼近器,并且显示出比可比较(非LSTM)RNN更好地解决部分可观察的走廊和推车任务(Bakker 2001)。 虽然原则上类似,但走廊和车轮任务具有微小的状态空间,只有少数几个特征。
与我们的工作并行,将LSTM与Deep Reinforcement Learning独立结合,以证明重复性有助于更好地发挥基于文本的幻想游戏。 方法类似,但域名不同:尽管幻想生成的文本明显复杂,但潜在的MDP具有相对低维度的基础状态空间。 两场比赛中较为复杂的只有56个基本状态。 相比之下,Atari游戏具有更丰富的状态空间,典型的游戏具有数百万种不同的状态。 然而,文本游戏的动作空间要大得多,分支因子为222,而Atari为18。

讨论和结论

实际任务通常具有不完整和嘈杂的状态信息,这是由部分可观察性引起的。 我们通过将长短期存储器与深Q网络相结合来修改DQN以处理POMDP的噪声观测特性。 由此产生的深度循环Q网络(DRQN)尽管在每一步只看到一个帧,但仍然能够跨帧整合信息以检测相关信息,例如屏幕上物体的速度。此外,在Pong,DRQN的游戏中 比标准的DeepQ网络更好地装备,以处理由闪烁的游戏屏幕引起的部分可观察性。
此外,当使用部分观察训练时,DRQN可以将其策略推广到完整观察的情况。在闪烁的Pong域上,性能随着域的可观察性而扩展,在观察每个游戏屏幕时达到接近完美的水平。这一结果表明,经常性网络学习的策略既足够强大,又能够处理丢失的游戏屏幕,并且可扩展到足以在可观察性增加时提高性能。泛化也发生在相反的方向:当在标准的Atari游戏上进行训练并针对闪烁游戏进行评估时,DRQN的表现在所有级别的部分信息中都比DQN更好。
我们的实验表明Pong代表了被检查游戏中的一个异常值。在一组十个闪烁的MDP中,我们观察到在使用并发时没有系统的改进。同样,在非闪烁的Atari游戏中,经常性和非经常性玩家之间几乎没有显着差异。这一观察结果使我们得出结论,虽然重复性是处理状态观测的可行方法,但与在卷积网络的输入层中堆叠观测值相比,它没有带来系统益处。未来的一条途径是确定Pong和Frostbite的相关特征,从而通过循环网络提高性能。

附录A:替代架构

在Beam Rider的游戏中评估了几种替代架构。 我们探索了用LSTM层替换第一个非卷积完全连接层(LSTM取代IP1)或在第一个和第二个完全连接层(LSTM over IP1)之间添加LSTM层的可能性。 结果强烈表明LSTM应取代IP1。 我们假设这允许LSTM直接访问卷积特征。 此外,在LSTM层之后添加整流层会不断降低性能。

另一种可能的架构将来自DQN的帧堆叠与LSTM的重复性相结合。 这种架构在每个时间步都接受四个最新帧的堆栈。架构的LSTM部分保持不变,并在最后10个时间步中展开。 理论上,这种修改应该允许在网络的卷积层中进行速度检测,使LSTM自由地执行高阶处理。 该架构具有最多的参数并且需要最多的训练时间。 不幸的是,结果表明附加参数不会导致所检查游戏集的性能提高。 网络可能有太多的参数,并且很容易过度拟合它所见过的培训经验。

附录B:计算效率

RNN的计算效率是一个重要的问题。我们通过执行1000次向后和向前传递进行实验,并报告每次传递所需的平均时间(以毫秒为单位)。 实验使用单个Nvidia GTX Titan Black,使用CuDNN和完全优化的Caffe版本。 结果表明,计算在输入层中堆叠的帧数和展开的迭代次数中呈亚线性。 即便如此,在大量堆叠帧上训练并且在多次迭代中展开的模型通常在计算上难以处理。 例如,展开30次迭代并具有10个堆叠帧的模型将需要超过56天才能达到1000万次迭代。

附录C:实验细节

通过播放10 episodes并平均得分,每50,000次迭代评估策略。 网络接受了1000万次迭代的训练,并使用了大小为400,000的重放内存。 此外,所有网络都使用ADADELTA(Zeiler 2012)优化器,学习率为0.1,动量为0.95。 LSTM的梯度被限制为10,以确保学习稳定性。 所有其他设置与(Mnih等人2015)中给出的设置相同。所有网络都使用Arcade学习环境ALE进行训练(Bellemare等人,2013)。 使用了以下ALE选项:颜色平均,最小动作集和死亡检测。

本文标签: 论文RecurrentDeepLearningObservable