JoyRL论文阅读《Deep Recurrent Q

编程入门 行业动态 更新时间:2024-10-06 20:28:36

JoyRL<a href=https://www.elefans.com/category/jswz/34/1770125.html style=论文阅读《Deep Recurrent Q"/>

JoyRL论文阅读《Deep Recurrent Q

Deep Recurrent Q-Learning for Partially Observable MDPs(部分可观测马尔可夫决策过程的深度循环Q学习)

作者:Matthew Hausknecht,Peter Stone
单位:Department of Computer Science The University of Texas at Austin
论文发表会议:National conference on artificial intelligence
论文发表时间:Submitted on 23 Jul 2015, last revised 11 Jan 2017
论文查看网址:.06527

论文贡献:提出一种基于DQN的神经网络模型(DRQN),将包含卷积神经网络(CNN)的DQN模型和LSTM结合,使强化学习智能体拥有记忆力的特性。

一. 写作动机

Why:
Playing Atari with Deep Reinforcement Learning(Mnih et al., 2013) 中,DQN是使用智能体(Agent)遇到的包含当前状态的最后4个状态的组成(最后4个画面)作为输入目的是获得画面中物体/角色的方向速度等信息。但换句话说,倘若遇到需要记忆特征超过四个画面的时间跨度任务时,对于DQN来说,则会由马尔可夫决策过程(MDP)变成部分可观测的马尔可夫决策过程(POMDP)。

What:
部分可观测的马尔可夫决策过程(Partially-Observable Markov Decision Process, POMDP)是指:当前观测(Observation,obs)的不完整且带有噪音,不包含环境运作的所有状态。导致无法作为环境(Environment,env)的完整描述信息(智能体得到观测跟环境的状态不等价)。

How:
论文作者提出,为避免因部分可观测的马尔可夫决策过程(POMDP)导致DQN在任务环境学习的过程中出现性能下降,引入Deep Recurrent Q-Network (DRQN),是基于LSTM(Long Short-Term Memory,LSTM)和DQN的组合。并证明使用DRQN能有效处理部分可观测的马尔可夫决策过程(POMDP),当评估智能体时,输入智能体的观测(obs)发生变化(遮盖、画面闪烁)时,因参数化价值函数(Value function)包含循环神经网络层(LSTM)能够使学习到的 策略 π θ \pi_{\theta } πθ​ 具有鲁棒性,不会发生策略崩塌。

二. 背景介绍

1. Deep Q-Learning(深度Q学习)

使用深度Q学习方法,是通过参数为 θ \theta θ的深度神经网络来近似价值函数(Value Function) V ( s ) V(s) V(s)或动作价值函数(Action-Value Function) Q ( s , a ) Q(s,a) Q(s,a)来隐式的学习最优策略 π ∗ \pi ^* π∗,输入环境的观测(obs),输出对观测(obs)估计的V值或Q值。

深度Q学习适用场景:连续状态空间(State space)离散动作空间(Action Space)任务。

价值函数的作用为:评估在当前状态-动作下,未来回报(Return)的期望。

使用深度神经网络作为强化学习的参数化值函数近似器的优点:
(1)具有深度学习自动提取特征的能力。
(2)参数化模型将现有可见的观测(obs)泛化到没有见过的观测(obs): ∣ θ ∣ ≪ ∣ S × A ∣ |\theta|\ll|S\times A| ∣θ∣≪∣S×A∣
(3)参数化模型可通过求导数的形式来更新神经网络模型参数。

参数化价值函数为:
V θ ( s ) ≅ V π ( s ) Q θ ( s , a ) ≅ Q π ( s , a ) V_\theta (s)\cong V^\pi (s) \\ Q_\theta (s,a)\cong Q^\pi (s,a) Vθ​(s)≅Vπ(s)Qθ​(s,a)≅Qπ(s,a)

深度Q学习保持学习稳定的技巧(Trick):
(1)经验回放(Experience Replay):针对数据层面的相关性和数据分布变化做改进,使得数据尽可能满足独立同分布(i.d.d)属性。
(2)目标网络(Target Network):解决在时序差分(Temporal Difference,TD)学习时,TD target和当前Q网络高度相关的问题。

深度Q学习的损失函数(Loss Function)为:
L i ( θ i ) = E ( s , a , r , s ′ ) ∼ D [ ( y i − Q ( s , a ; θ i ) ) 2 ] y i = r + γ max ⁡ a ′ Q ^ ( s ′ , a ′ ; θ − ) \mathcal{L}_{i}\left(\theta_{i}\right)=\mathbb{E}_{\left(s, a, r, s^{\prime}\right) \sim \mathcal{D}}\left[\left(y_{i}-Q\left(s, a ; \theta_{i}\right)\right)^{2}\right] \\ y_{i}=r+\gamma \max _{a^{\prime}} \hat{Q}\left(s^{\prime}, a^{\prime} ; \theta^{-}\right) Li​(θi​)=E(s,a,r,s′)

更多推荐

JoyRL论文阅读《Deep Recurrent Q

本文发布于:2024-02-14 00:08:45,感谢您对本站的认可!
本文链接:https://www.elefans.com/category/jswz/34/1761479.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文标签:论文   JoyRL   Recurrent   Deep

发布评论

评论列表 (有 0 条评论)
草根站长

>www.elefans.com

编程频道|电子爱好者 - 技术资讯及电子产品介绍!