Offline: Look Beneath the Surface: Exploiting Fundamental Symmetry for Sample-Efficient Offline RL|电子爱好者

admin管理员组
文章数量:1613406

ICML 2023 Workshop SCIS Poster
paper
code

Intro

研究在有限的且覆盖范围狭窄的数据集中学习到一个可靠的策略。具体来说，通过结合时间反演对称性（T-对称性），在隐空间中对前向和反向的动力学过程的一致性建立动力学模型（TDM）。文章发现TDM为小样本数据集提供了良好可靠的的表示空间，并可以基于T-对称性为衡量指标为OOD样本进行度量。基于此构造了一个新的离线RL算法（TSRL），该算法具有较少保守的策略约束和一个可靠数据增强方法。在D4RL数据上即使只有原始样本的1%，该算法的性能显著优于现有的离线RL算法

Metho

时间反演对称

文章指出大多数的现实环境模型中，可以用非线性一阶常微分方程近似动力学模型，若存在可逆变换 Γ : Ω ↦ Ω \Gamma:\Omega\mapsto\Omega Γ:Ω↦Ω使得方程 d Γ ( x ) / d t = − F ( Γ ( x ) ) d\Gamma(\mathbf{x})/dt=-F(\Gamma(\mathbf{x})) dΓ(x)/dt=−F(Γ(x))，则称为ODE系统是时间反转对称。定义时间演化算子 U Δ t : x ( t ) ↦ U Δ t ( x ( t ) ) = x ( t + Δ t ) U_{\Delta t}:\mathbf{x}(t)\mapsto U_{\Delta t}(\mathbf{x}(t))=\mathbf{x}(t+\Delta t) UΔt:x(t)↦UΔt(x(t))=x(t+Δt)。T-对称表明 Γ ∘ U τ = U − τ ∘ Γ \Gamma\circ U_{\tau}=U_{-\tau}\circ\Gamma Γ∘Uτ=U−τ∘Γ（复合映射），即任意状态的前向时间演化的反转应该等于反向状态的后向时间演化。

在时间离散的MDP中， x = ( s , a ) x=(s,a) x=(s,a),方程为 s ˙ = d s d t = s ′ − s \dot{s}=\frac{ds}{dt} = s'-s s˙=dtds=s′−s。此时前向模型为 F ( s , a ) = s ˙ F(s,a)=\dot{s} F(s,a)=s˙而反向模型为 − G ~ ( s ′ , a ′ ) . -\tilde{G}(s',a'). −G~(s′,a′).二者相等。为了避免下一时刻状态产生不可逆的动作或者特殊的动力学过程，设置反向模型中的动作为 a a a.

TDM

TDM为encoder-decoder的架构，其中解码器额外添加 δ s = 0 \delta_{s}=0 δs=0是指引其解码结果目标为状态值， δ = 1 \delta=1 δ=1为解码目标为 s ˙ \dot{s} s˙。encoder-decoder的损失函数由两个MSE构成
ℓ r e c ( s , a ) = ∥ s − ψ s ( z s , 0 ) ∥ 2 2 + ∥ a − ψ a ( z a ) ∥ 2 2 \ell_{rec}(s,a)=\|s-\psi_s(z_s,0)\|_2^2+\|a-\psi_a(z_a)\|_2^2 ℓrec(s,a)=∥s−ψs(zs,0)∥22+∥a−ψa(za)∥22

隐变量前向模型 f ( z s , z a ) = z ˙ s f(z_s, z_a) = \dot{z}_s f(zs,za)=z˙s中，目标是让 z ˙ s = z s ′ − z s z ˙ s = z s ′ − z s \dot{z}_s=z_{s^{\prime}}-z_s\dot{z}_s=z_{s^{\prime}}-z_s z˙s=zs′−zsz˙s=zs′−zs。而链式法则得到 z ˙ s = d z s d t = ∂ z s ∂ s ⋅ d s d t = ∇ s z s ⋅ s ˙ . \dot{z}_{s}=\frac{dz_{s}}{dt}=\frac{\partial z_{s}}{\partial s}\cdot\frac{ds}{dt}=\nabla_{s}z_{s}\cdot\dot{s}. z˙s=dtdzs=∂s∂zs⋅dtds=∇szs⋅s˙.因此，构造优化函数：
ℓ f w d ( s , a , s ′ ) = ∥ ( ∇ s z s ) s ˙ − z ˙ s ∥ 2 2 = ∥ ∂ ϕ ( s , a ) ∂ s s ˙ − f ( ϕ ( s , a ) ) ∥ 2 2 \ell_{fwd}(s,a,s')=\|(\nabla_sz_s)\dot{s}-\dot{z}_s\|_2^2=\|\frac{\partial\phi(s,a)}{\partial s}\dot{s}-f(\phi(s,a))\|_2^2 ℓfwd(s,a,s′)=∥(∇szs)s˙−z˙s∥22=∥∂s∂ϕ(s,a)s˙−f(ϕ(s,a))∥22
同时要求解码器解码器从 z ˙ s \dot{z}_s z˙s中解码得到 s ˙ \dot{s} s˙，构造损失函数
ℓ d s ( s , a , s ′ ) = ∥ s ˙ − ψ s ( z ˙ s , 1 ) ∥ 2 2 = ∥ s ˙ − ψ s ( f ( ϕ ( s , a ) ) , 1 ) ∥ 2 2 \ell_{ds}(s,a,s')=\|\dot{s}-\psi_s(\dot{z}_s,1)\|_2^2=\|\dot{s}-\psi_s(f(\phi(s,a)),1)\|_2^2 ℓds(s,a,s′)=∥s˙−ψs(z˙s,1)∥22=∥s˙−ψs(f(ϕ(s,a)),1)∥22

同理。反方向动力学模型的损失函数为
ℓ r v s ( s , a , s ′ ) = ∥ ( ∇ s ′ z s ′ ) ( − s ˙ ) − ( − z ˙ s ) ∥ 2 2 = ∥ ∂ ϕ ( s ′ , a ) ∂ s ′ ( − s ˙ ) − g ( ϕ ( s ′ , a ) ) ∥ 2 2 \ell_{rvs}(s,a,s')=\|(\nabla_{s'}z_{s'})(-\dot{s})-(-\dot{z}_s)\|_2^2=\|\frac{\partial\phi(s',a)}{\partial s'}(-\dot{s})-g(\phi(s',a))\|_2^2 ℓrvs(s,a,s′)=∥(∇s′zs′)(−s˙)−(−z˙s)∥22=∥∂s′∂ϕ(s′,a)(−s˙)−g(ϕ(s′,a))∥22

上述两个模型满足T对称 g ( z s + f ( z s , z a ) , z a ) = − z ˙ s = − f ( z s , z a ) g(z_s+f(z_s,z_a),z_a)=-\dot{z}_s=-f(z_s,z_a) g(zs+f(zs,za),za)=−z˙s=−f(zs,za)，因此最小化损失函数
ℓ T − s y m ( z s , z a ) = ∥ f ( z s , z a ) + g ( z s + f ( z s , z a ) , z a ) ∥ 2 2 \ell_{T-sym}(z_s,z_a)=\left\|f(z_s,z_a)+g(z_s+f(z_s,z_a),z_a)\right\|_2^2 ℓT−sym(zs,za)=∥f(zs,za)+g(zs+f(zs,za),za)∥22

综上所述，TDM的联合优化目标为
L T D M = ∑ ( s , a , s ′ ) ∈ D [ ℓ r e c + ℓ d s + ℓ f w d + ℓ r v s + ℓ T − s y m ] ( s , a , s ′ ) + λ L 1 [ L 1 ( f ) + L 1 ( g ) ] \mathcal{L}_{TDM}=\sum_{(s,a,s^{\prime})\in\mathcal{D}}[\ell_{rec}+\ell_{ds}+\ell_{fwd}+\ell_{rvs}+\ell_{T-sym}](s,a,s^{\prime})+\lambda_{L1}[\mathcal{L}_{1}(f)+\mathcal{L}_{1}(g)] LTDM=(s,a,s′)∈D∑[ℓrec+ℓds+ℓfwd+ℓrvs+ℓT−sym](s,a,s′)+λL1[L1(f)+L1(g)]
其中 L 1 \mathcal{L}_1 L1为L1-正则化。

TSRL

完成TDM的优化后便是将其用于离线学习。其中价值函数通过最小化基于TDM表征的均方bellman误差
Q = argmin ⁡ Q E ( s , a , s ′ ) ∼ D [ ( r ( s , a ) + γ Q ^ ( ϕ ( s ′ , π ( ⋅ ∣ s ′ ) ) ) − Q ( ϕ ( s , a ) ) ) 2 ] Q=\underset{Q}{\operatorname*{argmin}}\mathbb{E}_{(s,a,s')\sim\mathcal{D}}\Big[\Big(r(s,a)+\gamma\hat{Q}(\phi(s',\pi(\cdot|s')))-Q(\phi(s,a))\Big)^2\Big] Q=QargminE(s,a,s′)∼D[(r(s,a)+γQ^(ϕ(s′,π(⋅∣s′)))−Q(ϕ(s,a)))2]

对于策略则是采用如下优化
argmax ⁡ π E ( s , a ) ∼ D [ α Q ( ϕ ( s , π ( ⋅ ∣ s ) ) ) − λ 1 ∥ z a π − z a ∥ 2 2 − λ 2 ℓ T − s y m ( ϕ ( s , π ( ⋅ ∣ s ) ) ) ] \operatorname{argmax}_{\pi}\mathbb{E}_{(s,a)\sim\mathcal{D}}\big[\alpha Q(\phi(s,\pi(\cdot|s)))-\lambda_{1}\|z_{a^{\pi}}-z_{a}\|_{2}^{2}-\lambda_{2}\ell_{T-sym}(\phi(s,\pi(\cdot|s)))\big] argmaxπE(s,a)∼D[αQ(ϕ(s,π(⋅∣s)))−λ1∥zaπ−za∥22−λ2ℓT−sym(ϕ(s,π(⋅∣s)))]
其中添加了两种正则化项。第一项是限制隐变量偏差，第二项则是使得样本符合T-对称，这使得即使面对OOD的数据，如果与数据集中的一些潜在动作具有相似的隐空间特征表示，并且与满足TDM 中的 T 对称属性一致，那么可以期望这些操作之间存在一定程度的等价性。通过在可靠的 OOD 区域上实现策略学习和泛化，这导致了更宽松的策略约束，这对于小数据集设置至关重要。

数据增强

对隐空间变量进行数据增强即添加扰动项 ( z s , z a ) ↦ ( z s + ϵ , z a ) , (z_{s},z_{a})\mapsto(z_{s}+\epsilon,z_{a}), (zs,za)↦(zs+ϵ,za),。前向模型 z ˙ s = f ( z s , z a ) \dot{z}_s=f(z_s,z_a) z˙s=f(zs,za)则满足 z s ′ + ϵ ′ = z s + ϵ + f ( z s + ϵ , z a ) . z_{s'}+\epsilon'=z_{s}+\epsilon+f(z_{s}+\epsilon,z_{a}). zs′+ϵ′=zs+ϵ+f(zs+ϵ,za).。反向模型中则是 − z ˙ s = g ( z s ′ , z a ) a s : z s + ϵ ′ ′ = z s ′ + ϵ ′ + g ( z s ′ + ϵ ′ , z a ) -\dot{z}_{s}=g(z_{s^{\prime}},z_{a})\mathrm{as:}z_{s}+\epsilon^{\prime\prime}=z_{s^{\prime}}+\epsilon^{\prime}+g(z_{s^{\prime}}+\epsilon^{\prime},z_{a}) −z˙s=g(zs′,za)as:zs+ϵ′′=zs′+ϵ′+g(zs′+ϵ′,za)。为了满足T-对称则需要使得 ϵ ′ ′ = ϵ \epsilon''=\epsilon ϵ′′=ϵ
ϵ ′ ′ − ϵ = f ( z s + ϵ , z a ) + g ( z s + ϵ + f ( z s + ϵ , z a ) , z a ) = 0 \epsilon''-\epsilon=f(z_s+\epsilon,z_a)+g(z_s+\epsilon+f(z_s+\epsilon,z_a),z_a)=0 ϵ′′−ϵ=f(zs+ϵ,za)+g(zs+ϵ+f(zs+ϵ,za),za)=0
该式等价于原始 ℓ T − s y m \ell_{T-sym} ℓT−sym输入项添加扰动即 ℓ T − s y m ( z s + ϵ , z a ) = 0 \ell_{T-sym}(z_s+\epsilon,z_a)=0 ℓT−sym(zs+ϵ,za)=0.。在实际操作中，设置 ℓ T − s y m ( z s + ϵ , z a ) < h \ell_{T-sym}(z_s+\epsilon,z_a)<h ℓT−sym(zs+ϵ,za)<h，该值为所有(s,a)的 ℓ T − s y m ( ϕ ( s , a ) ) \ell_{T-sym}(\phi(s,a)) ℓT−sym(ϕ(s,a))的分位数值(实际取50%或者70%)

伪代码

Results

能够看出技术在小数据集上，算法也有不错的效果。

本文标签： surface exploiting offline Beneath fundamental

版权声明：本文标题：Offline: Look Beneath the Surface: Exploiting Fundamental Symmetry for Sample-Efficient Offline RL 内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://www.elefans.com/dianzi/1728642777a1167328.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

Offline: Look Beneath the Surface: Exploiting Fundamental Symmetry for Sample-Efficient Offline RL

Intro

Metho

时间反演对称

TDM

TSRL

数据增强

伪代码

Results

更多相关文章

Surface安装Windows和Ubuntu双系统方法（包括Ubuntu适配触控屏的方法）

Try Fyde OS on VMWare and Surface (by quqi99)

Fundamental theorem of arithmetic

SVD奇异值分解，求解Homography,Fundamental矩阵

Offline: Look Beneath the Surface: Exploiting Fundamental Symmetry for Sample-Efficient Offline RL

史上最简SLAM零基础解读(5) - Homography,Fundamental,Essential深入浅出→了解适用场景:共面、非共面、仅旋转

【85】退出fundamental reset后20ms无法进入detect是否可以再次linkup

推荐文章：探索 Fundamental React - SAP UI 设计的React之道

Why Rank of Fundamental Matrix is 2

The Fundamental Matrix Song

python ---- fundamental iteration

开源项目 `fundamental-react` 使用教程

Fundamental of 4G LTE - 学习笔记（3）OFDMAOFDM in 4G LTE (Part1)

Java初级——1. Fundamental

python fundamental structure_Data Structures and Algorithms in Python

python fundamental structure_Python for BioinformaticsPDF 下载

Agilent RF fundamentals （2）- fundamental units of RF

GObject 01: My first fundamental type.

DB2 fundamental - Tablespace (additional the different between Oracle's and Its)

学习Git--lesson 1_Fundamental Git workflow

发表评论

推荐文章

u盘安装win10系统1（通过MediaCreationTool制作WIN10系统安装U盘)

Commercial Satellite or Spy Satellite ? 令人扑朔迷离的DigitalGlobe公司WorldView卫星星座

vector的容量（capacity）和大小（size）的区别

电脑上的文件夹怎么加密 文件夹加密方法

win7文件夹加密_小编还原win7系统文件夹加密码的步骤

热门文章

渗透测试--6.2.mdk3攻击wifi

excel表格横向纵向变换_Excel教程：4个批量操作的小技巧，请你收好！

手把手教你在Windows10家庭版上安装Docker Toolbox

在Windows10专业版下使用docker安装oracle11g教程

安卓导航车机root方法_不破不立，拥抱安卓的全新奥迪A4L到底有多好用？

Linux系统关机重启，登录root用户，图形界面和字符界面，创建用户，删除用户，查看虚拟控制台用户，切换虚拟控制台

定位position总结

2021-07-13Python——报错 UnicodeDecodeError: ‘utf-8‘ codec can‘t decode byte 0xce in position 52: invali

VMware Convert Error: The size of all flat source disks will exceed the capacity of xxxxx

一键直达：Windows11 24H2正式版！抢先体验新功能！

最新文章

Electron学习 第十章通过链接打开浏览器

部分uc浏览器打开vue2.0项目空白页问题

浏览器打开服务器上的图片无法显示,网页中的图片打不开怎么办？原因与解决办法...

【jupyter】如何指定jupyter打开时的浏览器

微信怎么打开链接可以实现跳转外部浏览器打开网页

Android中调用浏览器打开网页方式

浏览器新开窗口打开页面 VUE

开机自启动浏览器并全屏打开网站

cmd dos命令启动浏览器指定网页

微信中怎么打开apk文件 微信跳转打开外部浏览器打开apk文件

Selenium打开浏览器的方式总结

edge浏览器无法打开任何界面包括设置、扩展页面

safari浏览器如何打开开发者工具

Android调用系统浏览器

【Sublime Text】sublime修改默认浏览器及使用不同浏览器打开网页的快捷键设置

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

电脑上的文件夹怎么加密文件夹加密方法

Electron学习第十章通过链接打开浏览器

微信中怎么打开apk文件微信跳转打开外部浏览器打开apk文件

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载