论文阅读《Deep Recurrent Q"/>
JoyRL论文阅读《Deep Recurrent Q
Deep Recurrent Q-Learning for Partially Observable MDPs(部分可观测马尔可夫决策过程的深度循环Q学习)
作者:Matthew Hausknecht,Peter Stone
单位:Department of Computer Science The University of Texas at Austin
论文发表会议:National conference on artificial intelligence
论文发表时间:Submitted on 23 Jul 2015, last revised 11 Jan 2017
论文查看网址:.06527
论文贡献:提出一种基于DQN的神经网络模型(DRQN),将包含卷积神经网络(CNN)的DQN模型和LSTM结合,使强化学习智能体拥有记忆力的特性。
一. 写作动机
Why:
在 Playing Atari with Deep Reinforcement Learning(Mnih et al., 2013) 中,DQN是使用智能体(Agent)遇到的包含当前状态的最后4个状态的组成(最后4个画面)作为输入。目的是获得画面中物体/角色的方向、速度等信息。但换句话说,倘若遇到需要记忆特征超过四个画面的时间跨度任务时,对于DQN来说,则会由马尔可夫决策过程(MDP)变成部分可观测的马尔可夫决策过程(POMDP)。
What:
部分可观测的马尔可夫决策过程(Partially-Observable Markov Decision Process, POMDP)是指:当前观测(Observation,obs)的不完整且带有噪音,不包含环境运作的所有状态。导致无法作为环境(Environment,env)的完整描述信息(智能体得到观测跟环境的状态不等价)。
How:
论文作者提出,为避免因部分可观测的马尔可夫决策过程(POMDP)导致DQN在任务环境学习的过程中出现性能下降,引入Deep Recurrent Q-Network (DRQN),是基于LSTM(Long Short-Term Memory,LSTM)和DQN的组合。并证明使用DRQN能有效处理部分可观测的马尔可夫决策过程(POMDP),当评估智能体时,输入智能体的观测(obs)发生变化(遮盖、画面闪烁)时,因参数化价值函数(Value function)包含循环神经网络层(LSTM)能够使学习到的 策略 π θ \pi_{\theta } πθ 具有鲁棒性,不会发生策略崩塌。
二. 背景介绍
1. Deep Q-Learning(深度Q学习)
使用深度Q学习方法,是通过参数为 θ \theta θ的深度神经网络来近似价值函数(Value Function) V ( s ) V(s) V(s)或动作价值函数(Action-Value Function) Q ( s , a ) Q(s,a) Q(s,a)来隐式的学习最优策略 π ∗ \pi ^* π∗,输入环境的观测(obs),输出对观测(obs)估计的V值或Q值。
深度Q学习适用场景:连续状态空间(State space)离散动作空间(Action Space)任务。
价值函数的作用为:评估在当前状态-动作下,未来回报(Return)的期望。
使用深度神经网络作为强化学习的参数化值函数近似器的优点:
(1)具有深度学习自动提取特征的能力。
(2)参数化模型将现有可见的观测(obs)泛化到没有见过的观测(obs): ∣ θ ∣ ≪ ∣ S × A ∣ |\theta|\ll|S\times A| ∣θ∣≪∣S×A∣
(3)参数化模型可通过求导数的形式来更新神经网络模型参数。
参数化价值函数为:
V θ ( s ) ≅ V π ( s ) Q θ ( s , a ) ≅ Q π ( s , a ) V_\theta (s)\cong V^\pi (s) \\ Q_\theta (s,a)\cong Q^\pi (s,a) Vθ(s)≅Vπ(s)Qθ(s,a)≅Qπ(s,a)
深度Q学习保持学习稳定的技巧(Trick):
(1)经验回放(Experience Replay):针对数据层面的相关性和数据分布变化做改进,使得数据尽可能满足独立同分布(i.d.d)属性。
(2)目标网络(Target Network):解决在时序差分(Temporal Difference,TD)学习时,TD target和当前Q网络高度相关的问题。
深度Q学习的损失函数(Loss Function)为:
L i ( θ i ) = E ( s , a , r , s ′ ) ∼ D [ ( y i − Q ( s , a ; θ i ) ) 2 ] y i = r + γ max a ′ Q ^ ( s ′ , a ′ ; θ − ) \mathcal{L}_{i}\left(\theta_{i}\right)=\mathbb{E}_{\left(s, a, r, s^{\prime}\right) \sim \mathcal{D}}\left[\left(y_{i}-Q\left(s, a ; \theta_{i}\right)\right)^{2}\right] \\ y_{i}=r+\gamma \max _{a^{\prime}} \hat{Q}\left(s^{\prime}, a^{\prime} ; \theta^{-}\right) Li(θi)=E(s,a,r,s′)
更多推荐
JoyRL论文阅读《Deep Recurrent Q
发布评论