admin管理员组文章数量:1613406
ICML 2023 Workshop SCIS Poster
paper
code
Intro
研究在有限的且覆盖范围狭窄的数据集中学习到一个可靠的策略。具体来说,通过结合时间反演对称性(T-对称性),在隐空间中对前向和反向的动力学过程的一致性建立动力学模型(TDM)。文章发现TDM为小样本数据集提供了良好可靠的的表示空间,并可以基于T-对称性为衡量指标为OOD样本进行度量。基于此构造了一个新的离线RL算法(TSRL),该算法具有较少保守的策略约束和一个可靠数据增强方法。在D4RL数据上即使只有原始样本的1%,该算法的性能显著优于现有的离线RL算法
Metho
时间反演对称
文章指出大多数的现实环境模型中,可以用非线性一阶常微分方程近似动力学模型,若存在可逆变换 Γ : Ω ↦ Ω \Gamma:\Omega\mapsto\Omega Γ:Ω↦Ω使得方程 d Γ ( x ) / d t = − F ( Γ ( x ) ) d\Gamma(\mathbf{x})/dt=-F(\Gamma(\mathbf{x})) dΓ(x)/dt=−F(Γ(x)),则称为ODE系统是时间反转对称。定义时间演化算子 U Δ t : x ( t ) ↦ U Δ t ( x ( t ) ) = x ( t + Δ t ) U_{\Delta t}:\mathbf{x}(t)\mapsto U_{\Delta t}(\mathbf{x}(t))=\mathbf{x}(t+\Delta t) UΔt:x(t)↦UΔt(x(t))=x(t+Δt)。T-对称表明 Γ ∘ U τ = U − τ ∘ Γ \Gamma\circ U_{\tau}=U_{-\tau}\circ\Gamma Γ∘Uτ=U−τ∘Γ(复合映射),即任意状态的前向时间演化的反转应该等于反向状态的后向时间演化。
在时间离散的MDP中, x = ( s , a ) x=(s,a) x=(s,a),方程为 s ˙ = d s d t = s ′ − s \dot{s}=\frac{ds}{dt} = s'-s s˙=dtds=s′−s。此时前向模型为 F ( s , a ) = s ˙ F(s,a)=\dot{s} F(s,a)=s˙而反向模型为 − G ~ ( s ′ , a ′ ) . -\tilde{G}(s',a'). −G~(s′,a′).二者相等。为了避免下一时刻状态产生不可逆的动作或者特殊的动力学过程,设置反向模型中的动作为 a a a.
TDM
TDM为encoder-decoder的架构,其中解码器额外添加
δ
s
=
0
\delta_{s}=0
δs=0是指引其解码结果目标为状态值,
δ
=
1
\delta=1
δ=1为解码目标为
s
˙
\dot{s}
s˙。encoder-decoder的损失函数由两个MSE构成
ℓ
r
e
c
(
s
,
a
)
=
∥
s
−
ψ
s
(
z
s
,
0
)
∥
2
2
+
∥
a
−
ψ
a
(
z
a
)
∥
2
2
\ell_{rec}(s,a)=\|s-\psi_s(z_s,0)\|_2^2+\|a-\psi_a(z_a)\|_2^2
ℓrec(s,a)=∥s−ψs(zs,0)∥22+∥a−ψa(za)∥22
隐变量前向模型
f
(
z
s
,
z
a
)
=
z
˙
s
f(z_s, z_a) = \dot{z}_s
f(zs,za)=z˙s中,目标是让
z
˙
s
=
z
s
′
−
z
s
z
˙
s
=
z
s
′
−
z
s
\dot{z}_s=z_{s^{\prime}}-z_s\dot{z}_s=z_{s^{\prime}}-z_s
z˙s=zs′−zsz˙s=zs′−zs。而链式法则得到
z
˙
s
=
d
z
s
d
t
=
∂
z
s
∂
s
⋅
d
s
d
t
=
∇
s
z
s
⋅
s
˙
.
\dot{z}_{s}=\frac{dz_{s}}{dt}=\frac{\partial z_{s}}{\partial s}\cdot\frac{ds}{dt}=\nabla_{s}z_{s}\cdot\dot{s}.
z˙s=dtdzs=∂s∂zs⋅dtds=∇szs⋅s˙.因此,构造优化函数:
ℓ
f
w
d
(
s
,
a
,
s
′
)
=
∥
(
∇
s
z
s
)
s
˙
−
z
˙
s
∥
2
2
=
∥
∂
ϕ
(
s
,
a
)
∂
s
s
˙
−
f
(
ϕ
(
s
,
a
)
)
∥
2
2
\ell_{fwd}(s,a,s')=\|(\nabla_sz_s)\dot{s}-\dot{z}_s\|_2^2=\|\frac{\partial\phi(s,a)}{\partial s}\dot{s}-f(\phi(s,a))\|_2^2
ℓfwd(s,a,s′)=∥(∇szs)s˙−z˙s∥22=∥∂s∂ϕ(s,a)s˙−f(ϕ(s,a))∥22
同时要求解码器解码器从
z
˙
s
\dot{z}_s
z˙s中解码得到
s
˙
\dot{s}
s˙,构造损失函数
ℓ
d
s
(
s
,
a
,
s
′
)
=
∥
s
˙
−
ψ
s
(
z
˙
s
,
1
)
∥
2
2
=
∥
s
˙
−
ψ
s
(
f
(
ϕ
(
s
,
a
)
)
,
1
)
∥
2
2
\ell_{ds}(s,a,s')=\|\dot{s}-\psi_s(\dot{z}_s,1)\|_2^2=\|\dot{s}-\psi_s(f(\phi(s,a)),1)\|_2^2
ℓds(s,a,s′)=∥s˙−ψs(z˙s,1)∥22=∥s˙−ψs(f(ϕ(s,a)),1)∥22
同理。反方向动力学模型的损失函数为
ℓ
r
v
s
(
s
,
a
,
s
′
)
=
∥
(
∇
s
′
z
s
′
)
(
−
s
˙
)
−
(
−
z
˙
s
)
∥
2
2
=
∥
∂
ϕ
(
s
′
,
a
)
∂
s
′
(
−
s
˙
)
−
g
(
ϕ
(
s
′
,
a
)
)
∥
2
2
\ell_{rvs}(s,a,s')=\|(\nabla_{s'}z_{s'})(-\dot{s})-(-\dot{z}_s)\|_2^2=\|\frac{\partial\phi(s',a)}{\partial s'}(-\dot{s})-g(\phi(s',a))\|_2^2
ℓrvs(s,a,s′)=∥(∇s′zs′)(−s˙)−(−z˙s)∥22=∥∂s′∂ϕ(s′,a)(−s˙)−g(ϕ(s′,a))∥22
上述两个模型满足T对称
g
(
z
s
+
f
(
z
s
,
z
a
)
,
z
a
)
=
−
z
˙
s
=
−
f
(
z
s
,
z
a
)
g(z_s+f(z_s,z_a),z_a)=-\dot{z}_s=-f(z_s,z_a)
g(zs+f(zs,za),za)=−z˙s=−f(zs,za),因此最小化损失函数
ℓ
T
−
s
y
m
(
z
s
,
z
a
)
=
∥
f
(
z
s
,
z
a
)
+
g
(
z
s
+
f
(
z
s
,
z
a
)
,
z
a
)
∥
2
2
\ell_{T-sym}(z_s,z_a)=\left\|f(z_s,z_a)+g(z_s+f(z_s,z_a),z_a)\right\|_2^2
ℓT−sym(zs,za)=∥f(zs,za)+g(zs+f(zs,za),za)∥22
综上所述,TDM的联合优化目标为
L
T
D
M
=
∑
(
s
,
a
,
s
′
)
∈
D
[
ℓ
r
e
c
+
ℓ
d
s
+
ℓ
f
w
d
+
ℓ
r
v
s
+
ℓ
T
−
s
y
m
]
(
s
,
a
,
s
′
)
+
λ
L
1
[
L
1
(
f
)
+
L
1
(
g
)
]
\mathcal{L}_{TDM}=\sum_{(s,a,s^{\prime})\in\mathcal{D}}[\ell_{rec}+\ell_{ds}+\ell_{fwd}+\ell_{rvs}+\ell_{T-sym}](s,a,s^{\prime})+\lambda_{L1}[\mathcal{L}_{1}(f)+\mathcal{L}_{1}(g)]
LTDM=(s,a,s′)∈D∑[ℓrec+ℓds+ℓfwd+ℓrvs+ℓT−sym](s,a,s′)+λL1[L1(f)+L1(g)]
其中
L
1
\mathcal{L}_1
L1为L1-正则化。
TSRL
完成TDM的优化后便是将其用于离线学习。其中价值函数通过最小化基于TDM表征的均方bellman误差
Q
=
argmin
Q
E
(
s
,
a
,
s
′
)
∼
D
[
(
r
(
s
,
a
)
+
γ
Q
^
(
ϕ
(
s
′
,
π
(
⋅
∣
s
′
)
)
)
−
Q
(
ϕ
(
s
,
a
)
)
)
2
]
Q=\underset{Q}{\operatorname*{argmin}}\mathbb{E}_{(s,a,s')\sim\mathcal{D}}\Big[\Big(r(s,a)+\gamma\hat{Q}(\phi(s',\pi(\cdot|s')))-Q(\phi(s,a))\Big)^2\Big]
Q=QargminE(s,a,s′)∼D[(r(s,a)+γQ^(ϕ(s′,π(⋅∣s′)))−Q(ϕ(s,a)))2]
对于策略则是采用如下优化
argmax
π
E
(
s
,
a
)
∼
D
[
α
Q
(
ϕ
(
s
,
π
(
⋅
∣
s
)
)
)
−
λ
1
∥
z
a
π
−
z
a
∥
2
2
−
λ
2
ℓ
T
−
s
y
m
(
ϕ
(
s
,
π
(
⋅
∣
s
)
)
)
]
\operatorname{argmax}_{\pi}\mathbb{E}_{(s,a)\sim\mathcal{D}}\big[\alpha Q(\phi(s,\pi(\cdot|s)))-\lambda_{1}\|z_{a^{\pi}}-z_{a}\|_{2}^{2}-\lambda_{2}\ell_{T-sym}(\phi(s,\pi(\cdot|s)))\big]
argmaxπE(s,a)∼D[αQ(ϕ(s,π(⋅∣s)))−λ1∥zaπ−za∥22−λ2ℓT−sym(ϕ(s,π(⋅∣s)))]
其中添加了两种正则化项。第一项是限制隐变量偏差,第二项则是使得样本符合T-对称,这使得即使面对OOD的数据,如果与数据集中的一些潜在动作具有相似的隐空间特征表示,并且与满足TDM 中的 T 对称属性一致,那么可以期望这些操作之间存在一定程度的等价性。通过在可靠的 OOD 区域上实现策略学习和泛化,这导致了更宽松的策略约束,这对于小数据集设置至关重要。
数据增强
对隐空间变量进行数据增强即添加扰动项
(
z
s
,
z
a
)
↦
(
z
s
+
ϵ
,
z
a
)
,
(z_{s},z_{a})\mapsto(z_{s}+\epsilon,z_{a}),
(zs,za)↦(zs+ϵ,za),。前向模型
z
˙
s
=
f
(
z
s
,
z
a
)
\dot{z}_s=f(z_s,z_a)
z˙s=f(zs,za)则满足
z
s
′
+
ϵ
′
=
z
s
+
ϵ
+
f
(
z
s
+
ϵ
,
z
a
)
.
z_{s'}+\epsilon'=z_{s}+\epsilon+f(z_{s}+\epsilon,z_{a}).
zs′+ϵ′=zs+ϵ+f(zs+ϵ,za).。反向模型中则是
−
z
˙
s
=
g
(
z
s
′
,
z
a
)
a
s
:
z
s
+
ϵ
′
′
=
z
s
′
+
ϵ
′
+
g
(
z
s
′
+
ϵ
′
,
z
a
)
-\dot{z}_{s}=g(z_{s^{\prime}},z_{a})\mathrm{as:}z_{s}+\epsilon^{\prime\prime}=z_{s^{\prime}}+\epsilon^{\prime}+g(z_{s^{\prime}}+\epsilon^{\prime},z_{a})
−z˙s=g(zs′,za)as:zs+ϵ′′=zs′+ϵ′+g(zs′+ϵ′,za)。为了满足T-对称则需要使得
ϵ
′
′
=
ϵ
\epsilon''=\epsilon
ϵ′′=ϵ
ϵ
′
′
−
ϵ
=
f
(
z
s
+
ϵ
,
z
a
)
+
g
(
z
s
+
ϵ
+
f
(
z
s
+
ϵ
,
z
a
)
,
z
a
)
=
0
\epsilon''-\epsilon=f(z_s+\epsilon,z_a)+g(z_s+\epsilon+f(z_s+\epsilon,z_a),z_a)=0
ϵ′′−ϵ=f(zs+ϵ,za)+g(zs+ϵ+f(zs+ϵ,za),za)=0
该式等价于原始
ℓ
T
−
s
y
m
\ell_{T-sym}
ℓT−sym输入项添加扰动即
ℓ
T
−
s
y
m
(
z
s
+
ϵ
,
z
a
)
=
0
\ell_{T-sym}(z_s+\epsilon,z_a)=0
ℓT−sym(zs+ϵ,za)=0.。在实际操作中,设置
ℓ
T
−
s
y
m
(
z
s
+
ϵ
,
z
a
)
<
h
\ell_{T-sym}(z_s+\epsilon,z_a)<h
ℓT−sym(zs+ϵ,za)<h,该值为所有(s,a)的
ℓ
T
−
s
y
m
(
ϕ
(
s
,
a
)
)
\ell_{T-sym}(\phi(s,a))
ℓT−sym(ϕ(s,a))的分位数值(实际取50%或者70%)
伪代码
Results
能够看出技术在小数据集上,算法也有不错的效果。
本文标签: surfaceexploitingofflineBeneathfundamental
版权声明:本文标题:Offline: Look Beneath the Surface: Exploiting Fundamental Symmetry for Sample-Efficient Offline RL 内容由热心网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:https://www.elefans.com/dianzi/1728642777a1167328.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论