Offline : CLARE: Conservative Model-Based Reward Learning for Offline Inverse Reinforcement Learning|电子爱好者

admin管理员组
文章数量:1656951

ICLR 2023
paper
code

Intro

离线逆强化学习由于协变量偏移 \textbf{协变量偏移} 协变量偏移问题容易导致所学的奖励函数外推误差 \textbf{奖励函数外推误差} 奖励函数外推误差。这种误差可能使得学习到的奖励函数无法正确解释任务，并在新环境中误导智能体。本文利用专家数据和低质量的多样化数据，设计了一个算法CLARE，通过将“保守性”纳入学习奖励函数中并利用估计动态模型，有效地解决离线IRL。CLARE旨在解决奖励外推误差，利用高质量专家数据和低质量多样化数据增强状态-行为空间的覆盖。该算法在保守奖励更新和安全策略改进之间进行迭代 \textbf{保守奖励更新和安全策略改进之间进行迭代} 保守奖励更新和安全策略改进之间进行迭代，奖励函数根据加权专家和多样化状态-行为更新，同时谨慎地惩罚模型rollout生成的行为。在MuJoCo连续控制任务上进行的广泛实验比较了CLARE与现有的离线IRL和离线IL算法。结果表明，CLARE在几乎所有数据集上都取得了显著的性能提升。

Method

Learning dynamics models

采用MOPO中的集成模型构造动力学模型，通过监督学习形式优化得到 { T ^ i ( s ′ ∣ s , a ) = N ( μ i ( s , a ) , Σ i ( s , a ) ) } i = 1 N \{\widehat{T}_{i}(s^{\prime}|s,a)=\mathcal{N}(\mu_{i}(s,a),\Sigma_{i}(s,a))\}_{i=1}^{N} {T i(s′∣s,a)=N(μi(s,a),Σi(s,a))}i=1N

CLARE

算法在保守奖励更新和安全策略改进之间进行迭代

L ( r ∣ π ) ≐ Z β E s , a ∼ ρ ^ π [ r ( s , a ) ] ⏟ penalized on model rollouts − E s , a ∼ ρ ˉ E [ r ( s , a ) ] ⏟ increased on expert data − E s , a ∼ ρ ˉ D [ β ( s , a ) r ( s , a ) ] ⏟ weighting expert and diverse data + Z β ψ ( r ) ⏟ regularizer , ( 2 ) L(r|\pi)\doteq\underbrace{Z_\beta\mathbb{E}_{s,a\thicksim\hat{\rho}^\pi}[r(s,a)]}_{\text{penalized on model rollouts}}-\underbrace{\mathbb{E}_{s,a\thicksim\bar{\rho}^E}[r(s,a)]}_{\text{increased on expert data}}-\underbrace{\mathbb{E}_{s,a\thicksim\bar{\rho}^D}[\beta(s,a)r(s,a)]}_{\text{weighting expert and diverse data}}+\underbrace{Z_\beta\psi(r)}_{\text{regularizer}},\quad(2) L(r∣π)≐penalized on model rollouts ZβEs,a∼ρ^π[r(s,a)]−increased on expert data Es,a∼ρˉE[r(s,a)]−weighting expert and diverse data Es,a∼ρˉD[β(s,a)r(s,a)]+regularizer Zβψ(r),(2)
其中权重 Z β ≐ 1 + E s ′ , a ′ ∼ ρ ~ D [ β ( s ′ , a ′ ) ] Z_{\beta}\doteq1+\mathbb{E}_{s^{\prime},a^{\prime}\sim\tilde{\rho}^{D}}[\beta(s^{\prime},a^{\prime})] Zβ≐1+Es′,a′∼ρ~D[β(s′,a′)]，经验分布 ρ ~ D ( s , a ) ≐ ( ∣ D E ( s , a ) ∣ + ∣ D B ( s , a ) ∣ ) / ( D E + D B ) \tilde{\rho}^{D}(s,a)\doteq(|\mathcal{D}_{E}(s,a)|+|\mathcal{D}_{B}(s,a)|)/(D_{E}+D_{B}) ρ~D(s,a)≐(∣DE(s,a)∣+∣DB(s,a)∣)/(DE+DB)， ρ ~ E ≐ ∣ D E ( s , a ) ∣ / D E \tilde{\rho}^{E}\doteq|\mathcal{D}_{E}(s,a)|/D_{E} ρ~E≐∣DE(s,a)∣/DE。而 ρ ^ π \hat{\rho}^{\pi} ρ^π表示在学习得到的动力学模型在执行策略 π \pi π得到的占用度量。
max ⁡ π ∈ I I L ( π ∣ r ) ≐ Z β E s , a ∼ ρ ^ π [ r ( s , a ) ] + α H ^ ( π ) , \max_{\pi\in\mathrm{II}}L(\pi|r)\doteq Z_\beta\mathbb{E}_{s,a\sim\hat{\rho}^\pi}[r(s,a)]+\alpha\widehat{H}(\pi), π∈IImaxL(π∣r)≐ZβEs,a∼ρ^π[r(s,a)]+αH (π),

文章回顾保守奖励函数优化问题，得到如下定义

D ψ D_\psi Dψ为广义距离统计函数。上述结果说明CLARE 基于模型 T ^ \hat{T} T^隐含优化一个策略，使得其占用度量保持在专家数据集 D E D_E DE和联合离线数据集 D 的经验分布的插值附近。CLARE 试图通过选择适当的权重参数 β(s, a) 来权衡模型的探索和离线数据的利用。接下来核心便是如何选择 β ( s , a ) \beta(s,a) β(s,a)。

CLARE基于不确定估计确定 β \beta β。不确定估计器为 c ( s , a ) = max ⁡ i ∈ [ N ] ∥ Σ i ( s , a ) ∥ F , c(s,a)=\max_{i\in[N]}\|\Sigma_{i}(s,a)\|_{F}, c(s,a)=maxi∈[N]∥Σi(s,a)∥F,。那每个(s,a)的 β \beta β表示为
β ( s , a ) = { N ′ ′ D N ′ D E , i f c ( s , a ) ≤ u , − D D E ⋅ 1 [ ( s , a ) ∈ D E ] , i f c ( s , a ) > u , 0 , o t h e r w i s e , \beta(s,a)=\begin{cases}\frac{N''D}{N'D_E},&ifc(s,a)\leq u,\\-\frac{D}{D_E}\cdot\mathbf{1}[(s,a)\in\mathcal{D}_E],&ifc(s,a)>u,\\0,&otherwise,\end{cases} β(s,a)=⎩ ⎨ ⎧N′DEN′′D,−DED⋅1[(s,a)∈DE],0,ifc(s,a)≤u,ifc(s,a)>u,otherwise,
其中 u u u是一个超参数， N ′ ≐ ∑ ( s , a ) ∈ D 1 [ c ( s , a ) ≤ u ] and N ′ ′ ≐ ∑ ( s , a ) ∈ D E 1 [ c ( s , a ) > u ] N'\doteq\sum_{(s,a)\in\mathcal{D}}\mathbf{1}[c(s,a)\leq u]\text{ and }N''\doteq\sum_{(s,a)\in\mathcal{D}_{E}}\mathbf{1}[c(s,a)>u] N′≐∑(s,a)∈D1[c(s,a)≤u] and N′′≐∑(s,a)∈DE1[c(s,a)>u]

Reward and policy regularizers

在实际操作中，对保守奖励优化问题中的 ψ ( r ) = r 2 \psi(r)=r^{2} ψ(r)=r2。奖励函数优化函数如下
L ( r ϕ ) ≐ Z β E D r e p l a y [ r ϕ ( s , a ) ] + Z β E s , a ∼ D ∪ D r e p l a y [ r ϕ ( s , a ) 2 ] − E s , a ∼ D E [ r ϕ ( s , a ) ] − E s , a ∼ D [ β ( s , a ) r ϕ ( s , a ) ] . \begin{aligned}L(r_{\phi})&\doteq Z_{\beta}\mathbb{E}_{\mathcal{D}_{\mathrm{replay}}}\left[r_{\phi}(s,a)\right]+Z_{\beta}\mathbb{E}_{s,a\sim\mathcal{D}\cup\mathcal{D}_{\mathrm{replay}}}\left[r_{\phi}(s,a)^{2}\right]\\&-\mathbb{E}_{s,a\sim\mathcal{D}_{E}}\big[r_{\phi}(s,a)\big]-\mathbb{E}_{s,a\sim\mathcal{D}}\big[\beta(s,a)r_{\phi}(s,a)\big].\end{aligned} L(rϕ)≐ZβEDreplay[rϕ(s,a)]+ZβEs,a∼D∪Dreplay[rϕ(s,a)2]−Es,a∼DE[rϕ(s,a)]−Es,a∼D[β(s,a)rϕ(s,a)].

对策略优化采用SAC，而在这为了加速策略改进，从离线数据中采样batch的数据，将KL正则化加入其中
D K L ( π b ∥ π ) ≐ E s ∈ D ′ [ E a ∼ π b ( ⋅ ∣ s ) [ log ⁡ π b ( a ∣ s ) ] − E a ∼ π b ( ⋅ ∣ s ) [ log ⁡ π ( a ∣ s ) ] ] , D_{\mathrm{KL}}(\pi^b\|\pi)\doteq\mathbb{E}_{s\in\mathcal{D}^{\prime}}\Big[\mathbb{E}_{a\sim\pi^b(\cdot|s)}\Big[\log\pi^b(a|s)\Big]-\mathbb{E}_{a\sim\pi^b(\cdot|s)}\Big[\log\pi(a|s)\Big]\Big], DKL(πb∥π)≐Es∈D′[Ea∼πb(⋅∣s)[logπb(a∣s)]−Ea∼πb(⋅∣s)[logπ(a∣s)]],
其中 π b ( a ∣ s ) = ∑ ( s ′ , a ′ ) ∈ D ′ 1 [ s ′ = s , a ′ = a ] ∑ ( s ′ , a ′ ) ∈ D ′ 1 [ s ′ = s ] i f ( s , a ) ∈ D ′ , and π b ( a ∣ s ) = 0 o t h e r w i s e \pi^b(a|s)=\frac{\sum_{(s^{\prime},a^{\prime})\in\mathcal{D}^{\prime}}\mathbf{1}[s^{\prime}=s,a^{\prime}=a]}{\sum_{(s^{\prime},a^{\prime})\in\mathcal{D}^{\prime}}\mathbf{1}[s^{\prime}=s]}\mathrm{~if~}(s,a)\in\mathcal{D}^{\prime}\text{, and }\pi^b(a|s)=0 ~~otherwise πb(a∣s)=∑(s′,a′)∈D′1[s′=s]∑(s′,a′)∈D′1[s′=s,a′=a] if (s,a)∈D′, and πb(a∣s)=0 otherwise。这一项可以直接用 − E s , a ∼ D ′ [ log ⁡ π ( a ∣ s ) ] -\mathbb{E}_{s,a\sim\mathcal{D}^{\prime}}[\log\pi(a|s)] −Es,a∼D′[logπ(a∣s)]代替实现。

伪代码

其中安全的策略改进过程如下

保守的奖励函数更新

结果

消融实验

对不同质量的离线数据进行消融

本文标签： Conservative Model offline CLARE Based

版权声明：本文标题：Offline : CLARE: Conservative Model-Based Reward Learning for Offline Inverse Reinforcement Learning 内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://www.elefans.com/dianzi/1729755687a1212103.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

Offline : CLARE: Conservative Model-Based Reward Learning for Offline Inverse Reinforcement Learning

Intro

Method

Learning dynamics models

CLARE

Reward and policy regularizers

伪代码

结果

消融实验

更多相关文章

Learning to Adapt: Meta-Learning for Model-Based Control

【FedCom】A Byzantine-Robust Local Model Aggregation Rule Using Data Commitment for Federated Learning

array summation and merging based on uniqueness of element at certain position + ruby arrays

Helper-Based Adversarial Training

论文简读-BERT-INT-《 A BERT-based Interaction Model For Knowledge Graph Alignment》

《Multi-Modal Features Representation-Based Convolutional Neural Network Model for Malicious Website》

Infrastructure-Based Object Detection and Tracking for Cooperative Driving Automation: A Survey

2021-09-16Token-based server access validation failed with an infrastructure error. Login lacks Conn

探索图神经网络的新世界：Graph-Based Deep Learning Literature

#include errors detected based on information provided by the configurationProvider setting.

Web Based Quiz System v1.0 SQL 注入漏洞（CVE-2022-32991）

【论文阅读】Search-Based Testing Approach for Deep Reinforcement Learning Agents

【论文阅读】An LSTM-Based Deep Learning Approach for Classifying Malicious Traffic at the Packet Level

【论文阅读】A Transformer-based Approach for Source Code Summarization

《FL-MSRE: A Few-Shot Learning based Approach to Multimodal Social RelationExtraction》

【数据安全】3. Android 文件级加密（File-based Encryption）技术介绍

Conservative Q-Learning(CQL)保守Q学习(一)-CQL1(下界Q值估计)

（CQL）Conservative Q-Learning for Offline Reinforcement Learning

Conservative Q-Learning for Offline Reinforcement Learning论文解读CQL

conserve与conservative

发表评论

推荐文章

【局部路径规划】DWA动态窗口法 Dynamic Window Approach

Linux面试题汇总

2020.07月Tensorflow-gpu 2.1版本 win10+NVIDIA GeForce MX150安装趟坑血泪安装记录

末代皇帝Intel核显黑苹果，NUC10的性能到底有多强

【产品经理修炼之道】- 关于产品科技方法论

热门文章

Linux杀毒软件之ClamAV使用详解

vmware Tools 全系列版本下载及安装方法（vmware Tools 10~12）

neo4j 4.x新建数据库，并解决报错Unsupported administration command: CREATE DATABASE

Device Administration

打印机驱动提取ppd文件

Tensorboard 端口占用：Port 6006 is in use by another program. Either identify and stop that program

windows10提示：我们找不到你的相机、0xA00F4244＜NoCamerasAreAttached＞

Oracle授权如何购买？多少钱？如何计算？

CPU联盟潘榆文：百度侵权的大山虽然高不可攀，但我愿做愚公

实践任务：项目介绍与项目准备+制作网页头部和导航+制作banner和最新更新栏目+制作苹果之家栏目+制作底部版权区域与CSS代码优化+制作Apple独家栏目

最新文章

苹果m1芯片可以用mysql吗_为什么浩南不建议购买M1芯片的苹果电脑？跑分高不一定好用...

苹果笔记本只有windows系统很卡

为什么一部分人强烈推荐Macbook而另一部分人却说永远也不要买Macbook？到底好不好用？

酷睿i9 12900h和i7 11800h差距 i912900h和i711800h对比

升级i5-4590至i7-4790：编程性能提升是否值得？

【Python】AppUI自动化—appium自动化开发环境部署、APP测试案例（17）上

苹果笔记本删除windows系统

做大模型 千万别买苹果笔记本电脑

DIY大神分享：i7 10700k配什么主板和显卡性价比高

i7 12700T参数 i7 12700T怎么样

vue3源码之createApp

苹果笔记本能学二级计算机吗,怎么辨别苹果笔记本是不是翻新机

苹果小白笔记本_苹果笔记本重装系统windows教程

笔记本选购：i5轻薄本和i7轻薄本该如何选择？

t480安装matlab不了,thinkpad t480和t490的区别

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

做大模型千万别买苹果笔记本电脑

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载