（CQL）Conservative Q-Learning for Offline Reinforcement Learning|电子爱好者

admin管理员组
文章数量:1656906

Abstract

\qquad 在大规模、现实世界应用中，强化学习如何有效利用庞大的、历史收集的 datasets 是一个关键挑战。 O f f l i n e R L Offline\; RL OfflineRL 算法旨在利用 p r e v i o u s l y − c o l l e c t e d previously-collected previously−collected、 s t a t i c d a t a s e t s w i t h o u t f u r t h e r i n t e r a c t i o n static \; datasets\; without \; further \; interaction staticdatasetswithoutfurtherinteraction 学习有效的策略。然而，在实践中， O f f l i n e R L Offline\; RL OfflineRL 代表了一个主要的挑战，标准的 o f f − p o l i c y R L off-policy RL off−policyRL 算法可能由于 d a t a s e t dataset dataset 和 l e a r n e d p o l i c y learned policy learnedpolicy 之间的分布差异导致的过估计而失效，尤其是当在一个 c o m p l e x complex complex 、 m u t i − m o d a l d a t a d i s t r i b u t i o n s muti-modal \; data \; distributions muti−modaldatadistributions 上训练时。

\qquad 在本文中，我们提出了 c o n s e r v a t i v e Q − l e a r n i n g ( C Q L ) conservative \; Q-learning (CQL) conservativeQ−learning(CQL)，旨在学习一个保守的 Q − f u n c t i o n Q-function Q−function，即通过该 Q − f u n c t i o n Q-function Q−function 得到的值是其真实值的下界。

\qquad 我们从理论上证明了CQL产生了一个当前策略的价值的下界，它是一个有 t h e o r e t i c a l i m p r o v e m e n t g u a r a n t e e s theoretical \; improvement \; guarantees theoreticalimprovementguarantees 的 p o l i c y l e a r n i n g p r o c e d u r e policy \; learning \; procedure policylearningprocedure（ 策略学习过程 ）。在实践中，CQL通过一个简单的 Q − v a l u e r e g u l a r i z e r Q-value \; regularizer Q−valueregularizer 对标准Bellman误差目标进行了扩展，该正则化器在现有 deep q-learning 和actor-critic实现之上易于实现。在离散和连续控制领域，我们表明CQL实质上优于现有的离线RL方法，通常学习策略获得2-5倍的高最终回报，特别是在学习复杂和多模态数据分布时。

3、The Conservative Q-Learning (CQL) Framework

\qquad 我们提出了一个 c o n s e r v a t i v e Q − l e a r n i n g ( C Q L ) conservative \; Q-learning (CQL) conservativeQ−learning(CQL) 算法，通过这个算法学习到的一个 p o l i c y policy policy 的 Q − f u n c t i o n Q-function Q−function 的期望值是其真实值的下界。 Q − v a l u e Q-value Q−value 的下界可以防止 O f f l i n e R L Offline\; RL OfflineRL 设置中常见的由于OOD动作和函数逼近错误而导致的过高估计[36,32]。我们使用 C Q L CQL CQL 泛指Q-learning方法和actor-critic方法，尽管后来也使用明确的策略。我们首先关注 C Q L CQL CQL 中的策略评估步骤，它本身可以作为一个非策略评估过程使用，或者集成到一个完整的 O f f l i n e R L Offline\; RL OfflineRL 算法中，我们将在3.2节中讨论。

3.1 Conservative Off-Policy Evaluation

\qquad 我们想估计在行为策略 π β ( a ∣ s ) \pi_{\beta}(a|s) πβ(a∣s) 下生成的数据集 D D D 中的 t a r g e t p o l i c y π target \; policy\; \pi targetpolicyπ 的价值 V π ( s ) \; V^{\pi}(s) Vπ(s) 。因为我们注重防止对策略值的过高估计，所以我们想学习一个保守的下界 Q − f u n c t i o n Q-function Q−function，在最小化 s t a n d a r d B e l l m a n e r r o r o b j e c t i v e standard \; Bellman \; error \; objective standardBellmanerrorobjective 的同时，最小化 Q − v a l u e Q-value Q−value。我们选择的惩罚项是，最小化在特定 s t a t e − a c t i o n p a i r s state-action \; pairs state−actionpairs 分布下 Q − v a l u e Q-value Q−value 的期望。由于标准的 Q − f u n c t i o n Q-function Q−function 训练不查询未观测 s t a t e state state 的 Q − f u n c t i o n Q-function Q−function，但是查询未观测 a c t i o n action action的 Q − f u n c t i o n Q-function Q−function。我们限制 μ \mu μ 来与数据集中的 state-marginal 匹配，即 μ ( s , a ) = d π β μ ( a ∣ s ) \mu(s,a) = d^{\pi_{\beta}}\mu(a|s) μ(s,a)=dπβμ(a∣s)。这样就可以进行训练过程中 Q − f u n c t i o n Q-function Q−function 的迭代更新：

\qquad 其中 α \alpha α 是权衡因子。

\qquad 在 T h e o r e m 3.1 Theorem\;3.1 Theorem3.1 中，我们展示了对于所有的 ( s , a ) (s,a) (s,a) ， Q − f u n c t i o n Q-function Q−function 是 Q π Q^\pi Qπ 的下界：

\qquad 然而，如果只想估计 V π ( s ) V^\pi(s) Vπ(s) ，我们可以大幅收紧这个下界。如果我们需要 π ( a ∣ s ) \pi(a|s) π(a∣s) 下的 Q π ^ \hat{Q_{\pi}} Qπ^的期望是 V π ( s ) V^\pi(s) Vπ(s) 的下界，我们可以通过引入一个额外的 data 分布 π β ( a ∣ s ) \pi_{\beta}(a|s) πβ(a∣s) 下的 Q − v a l u e m a x i m i z a t i o n t e r m Q-value \; maximization \; term Q−valuemaximizationterm 来提升这个上界。迭代更新公式为：

\qquad 在 T h e o r e m 3.2 Theorem\;3.2 Theorem3.2 中，我们展示了结果 Q − v a l u e Q ^ π Q-value \; \hat{Q}_{\pi} Q−valueQ^π 不是 a point-wise lowerbound，当的时候有。直观上，公式（2）在最大化行为策略 π ^ β \hat{\pi}_{\beta} π^β下的 Q − v a l u e Q-value Q−value 时， π ^ β \hat{\pi}_{\beta} π^β下的动作的 Q − v a l u e s Q-values Q−values 更可能被过估计，因此 Q ^ π \hat{Q}^{\pi} Q^π 不一定是 Q π Q^{\pi} Qπ 的 pointwise 下界。而最大化项中原则上可以利用除了 π ^ β ( a ∣ s ) \hat{\pi}_{\beta}(a|s) π^β(a∣s) 的其他分布，我们在附录D.2中证明了结果值不能保证是其他分布的下界。

\qquad 公式（1）展示了基础的 CQL 公式，学到的 Q − f u n c t i o n Q-function Q−function 是真是 Q − f u n c t i o n Q π Q-function \; Q^{\pi} Q−functionQπ 的下界，公式（2）展示了 e x p e c t e d Q − v a l u e o f t h e p o l i c y expected \; Q-value \; of \; the \; policy expectedQ−valueofthepolicy 的更 t i g h e r tigher tigher 的下界。通过选择比较好的 α \alpha α 两个公式都可行，一般 α \alpha α 设置的比较小。

3.2 Conservative Q-Learning for Offline RL

\qquad 将结果应用于一个 c o m p l e t e R L a l g o r i t h m complete \; RL \; algorithm completeRLalgorithm

\qquad 提出 o f f l i n e p o l i c y l e a r n i n g offline \; policy \; learning offlinepolicylearning 的一般化方法 —— c o n s e r v a t i v e Q − l e a r n i n g ( C Q L ) conservative \; Q-learning \; (CQL) conservativeQ−learning(CQL)
\qquad

本文标签： Conservative cql Learning Reinforcement offline

版权声明：本文标题：（CQL）Conservative Q-Learning for Offline Reinforcement Learning 内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://www.elefans.com/dongtai/1729755679a1212102.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

（CQL）Conservative Q-Learning for Offline Reinforcement Learning

Abstract

3、The Conservative Q-Learning (CQL) Framework

3.1 Conservative Off-Policy Evaluation

3.2 Conservative Q-Learning for Offline RL

更多相关文章

联邦学习（Federated Learning）介绍

Offline: Look Beneath the Surface: Exploiting Fundamental Symmetry for Sample-Efficient Offline RL

Machine Learning for Computer Systems and Networking:A Survey ---综述阅读 对于计算机系统和网络的机器学习

行人检测“Pedestrian Detection with Unsupervised Multi-Stage Feature Learning”

CLIP论文翻译、Learning Transferable Visual Models From Natural Language Supervision翻译

【kg推荐-＞精读】Learning Intents behind Interactions with Knowledge Graph for Recommendation

研究生英语单词学习——Learning English

【主动学习 01】经典综述-Active Learning Literature Survey-Burr Settles(2009)

Deep Learning Literature 常用词中英文总结（一）

Review 4995 Applied Machine Learning

【Deep Learning】VGG16之feature map学习笔记

精读FREE: Feature Refinement for Generalized Zero-Shot Learning

FL-MSRE: A Few-Shot Learning based Approach to Multimodal Social RelationExtraction

【压缩感知 SDA】A Deep Learning Approach to Structured Signal Recovery

Learning to Know Where to See: A Visibility-Aware Approach for Occluded Person Re-identification阅读记录

（IJCAI-17）Transfer learning in multi-armed bandits: A causal approach

Conservative Q-Learning(CQL)保守Q学习(一)-CQL1(下界Q值估计)

Offline : CLARE: Conservative Model-Based Reward Learning for Offline Inverse Reinforcement Learning

cpufreq 之conservative governe的实现

Conservative Q-Learning for Offline Reinforcement Learning论文解读CQL

发表评论

推荐文章

kali创建文件_在kali中使用ecryptfs创建加密文件夹-bin文件夹

Ubuntu挂载群辉NAS服务器共享文件夹

红队技巧：绕过ESET_NOD32抓取密码（ESET_NOD32是一款杀毒软件）

88.Identify two situations in which you can use Data Recovery Advisor for recovery. (Choose two.)

i3、i5、i7的CPU对于一般使用者差别大吗

热门文章

雷霆战机单机老版本_雷霆战机下载_雷霆战机电脑版单机游戏下载

汉澳sinox2013server版操作系统商用版发布

Unable to identify any set of controllers that can actuate the specified joints: [ joint1 joint2

[Javascript] Identify and Deal with NaN in JavaScript

百度AI代码辅助工具Baidu Comate初体验

mathtype7.0最新破解版安装下载及使用教程2025最新

rust画质怎么设置不卡顿_rust怎么设置流畅画面图解 | 手游网游页游攻略大全

学完教程，不知道接下去从哪里开始做自己的第一个APP，怎么办？酷课堂iOS交流群问答（201902期）

7个免费小巧的软件，让你的电脑更好用

WPS Office政府机关单位专用版[安卓+Windows]

最新文章

ChatGPT APP来了，还可以直接订阅Plus账号，操作流程都这篇里面

PostgreSQL DBA(40) - PG 12 pg_promote

repmgr promote

Qt Creator “Promote to“功能 笔记

RabbitMQ ha-promote-on-shutdown 与 ha-promote-on-failure

ChatGPT App 来了！

AI应用第一弹：ChatGPT镜像版app

postgresql主从java_postgresql主从切换(promote方式主从切换)

学习qt+OpenGL记录1，解决QT控件promote后找不到头文件的解决办法

pg12新特性-新增 pg_promote() 函数用于激活备库

重磅，ChatGPT App 来了！（附保姆级教程）

基于linux7的pgsql-14promote主备切换

QT项目负责人必须掌握的Ui设计师功能——Promote to !

【LLM promote engineering】怎么去尝试用GPT帮你写一个新类型的文章

Instruction-Tuning&amp;promote tuning原理，对比区别

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

Machine Learning for Computer Systems and Networking:A Survey ---综述阅读对于计算机系统和网络的机器学习

Qt Creator “Promote to“功能笔记

Instruction-Tuning&promote tuning原理，对比区别

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载