JoyRL论文阅读《Deep Recurrent Q

编程入门行业动态更新时间:2024-10-06 20:28:36

JoyRL<a href=https://www.elefans.com/category/jswz/34/1770125.html style= 论文阅读《Deep Recurrent Q"/>

JoyRL论文阅读《Deep Recurrent Q

Deep Recurrent Q-Learning for Partially Observable MDPs（部分可观测马尔可夫决策过程的深度循环Q学习）

作者：Matthew Hausknecht，Peter Stone
单位：Department of Computer Science The University of Texas at Austin
论文发表会议：National conference on artificial intelligence
论文发表时间：Submitted on 23 Jul 2015, last revised 11 Jan 2017
论文查看网址：.06527

论文贡献：提出一种基于DQN的神经网络模型（DRQN），将包含卷积神经网络（CNN）的DQN模型和LSTM结合，使强化学习智能体拥有记忆力的特性。

一. 写作动机

Why:
在 Playing Atari with Deep Reinforcement Learning(Mnih et al., 2013) 中，DQN是使用智能体（Agent）遇到的包含当前状态的最后4个状态的组成（最后4个画面）作为输入。目的是获得画面中物体/角色的方向、速度等信息。但换句话说，倘若遇到需要记忆特征超过四个画面的时间跨度任务时，对于DQN来说，则会由马尔可夫决策过程（MDP）变成部分可观测的马尔可夫决策过程（POMDP）。

What:
部分可观测的马尔可夫决策过程（Partially-Observable Markov Decision Process, POMDP）是指：当前观测（Observation，obs）的不完整且带有噪音，不包含环境运作的所有状态。导致无法作为环境（Environment，env）的完整描述信息（智能体得到观测跟环境的状态不等价）。

How:
论文作者提出，为避免因部分可观测的马尔可夫决策过程（POMDP）导致DQN在任务环境学习的过程中出现性能下降，引入Deep Recurrent Q-Network (DRQN)，是基于LSTM（Long Short-Term Memory，LSTM）和DQN的组合。并证明使用DRQN能有效处理部分可观测的马尔可夫决策过程（POMDP），当评估智能体时，输入智能体的观测（obs）发生变化（遮盖、画面闪烁）时，因参数化价值函数（Value function）包含循环神经网络层（LSTM）能够使学习到的策略 π θ \pi_{\theta } πθ 具有鲁棒性，不会发生策略崩塌。

二. 背景介绍

1. Deep Q-Learning（深度Q学习）

使用深度Q学习方法，是通过参数为 θ \theta θ的深度神经网络来近似价值函数（Value Function） V ( s ) V(s) V(s)或动作价值函数（Action-Value Function） Q ( s , a ) Q(s,a) Q(s,a)来隐式的学习最优策略 π ∗ \pi ^* π∗，输入环境的观测（obs），输出对观测（obs）估计的V值或Q值。

深度Q学习适用场景：连续状态空间（State space）离散动作空间（Action Space）任务。

价值函数的作用为：评估在当前状态-动作下，未来回报（Return）的期望。

使用深度神经网络作为强化学习的参数化值函数近似器的优点：
（1）具有深度学习自动提取特征的能力。
（2）参数化模型将现有可见的观测（obs）泛化到没有见过的观测（obs）： ∣ θ ∣ ≪ ∣ S × A ∣ |\theta|\ll|S\times A| ∣θ∣≪∣S×A∣
（3）参数化模型可通过求导数的形式来更新神经网络模型参数。

参数化价值函数为：
V θ ( s ) ≅ V π ( s ) Q θ ( s , a ) ≅ Q π ( s , a ) V_\theta (s)\cong V^\pi (s) \\ Q_\theta (s,a)\cong Q^\pi (s,a) Vθ(s)≅Vπ(s)Qθ(s,a)≅Qπ(s,a)

深度Q学习保持学习稳定的技巧（Trick）：
（1）经验回放（Experience Replay）：针对数据层面的相关性和数据分布变化做改进，使得数据尽可能满足独立同分布（i.d.d）属性。
（2）目标网络（Target Network）：解决在时序差分（Temporal Difference，TD）学习时，TD target和当前Q网络高度相关的问题。

深度Q学习的损失函数（Loss Function）为：
L i ( θ i ) = E ( s , a , r , s ′ ) ∼ D [ ( y i − Q ( s , a ; θ i ) ) 2 ] y i = r + γ max ⁡ a ′ Q ^ ( s ′ , a ′ ; θ − ) \mathcal{L}_{i}\left(\theta_{i}\right)=\mathbb{E}_{\left(s, a, r, s^{\prime}\right) \sim \mathcal{D}}\left[\left(y_{i}-Q\left(s, a ; \theta_{i}\right)\right)^{2}\right] \\ y_{i}=r+\gamma \max _{a^{\prime}} \hat{Q}\left(s^{\prime}, a^{\prime} ; \theta^{-}\right) Li(θi)=E(s,a,r,s′)

更多推荐

JoyRL论文阅读《Deep Recurrent Q

本文发布于:2024-02-14 00:08:45，感谢您对本站的认可！

本文链接:https://www.elefans.com/category/jswz/34/1761479.html