admin管理员组文章数量:1656951
ICLR 2023
paper
code
Intro
离线逆强化学习由于 协变量偏移 \textbf{协变量偏移} 协变量偏移问题容易导致所学的 奖励函数外推误差 \textbf{奖励函数外推误差} 奖励函数外推误差。这种误差可能使得学习到的奖励函数无法正确解释任务,并在新环境中误导智能体。本文利用专家数据和低质量的多样化数据,设计了一个算法CLARE,通过将“保守性”纳入学习奖励函数中并利用估计动态模型,有效地解决离线IRL。CLARE旨在解决奖励外推误差,利用高质量专家数据和低质量多样化数据增强状态-行为空间的覆盖。该算法在 保守奖励更新和安全策略改进之间进行迭代 \textbf{保守奖励更新和安全策略改进之间进行迭代} 保守奖励更新和安全策略改进之间进行迭代,奖励函数根据加权专家和多样化状态-行为更新,同时谨慎地惩罚模型rollout生成的行为。在MuJoCo连续控制任务上进行的广泛实验比较了CLARE与现有的离线IRL和离线IL算法。结果表明,CLARE在几乎所有数据集上都取得了显著的性能提升。
Method
Learning dynamics models
采用MOPO中的集成模型构造动力学模型,通过监督学习形式优化得到
{
T
^
i
(
s
′
∣
s
,
a
)
=
N
(
μ
i
(
s
,
a
)
,
Σ
i
(
s
,
a
)
)
}
i
=
1
N
\{\widehat{T}_{i}(s^{\prime}|s,a)=\mathcal{N}(\mu_{i}(s,a),\Sigma_{i}(s,a))\}_{i=1}^{N}
{T
CLARE
算法在保守奖励更新和安全策略改进之间进行迭代
-
L
(
r
∣
π
)
≐
Z
β
E
s
,
a
∼
ρ
^
π
[
r
(
s
,
a
)
]
⏟
penalized on model rollouts
−
E
s
,
a
∼
ρ
ˉ
E
[
r
(
s
,
a
)
]
⏟
increased on expert data
−
E
s
,
a
∼
ρ
ˉ
D
[
β
(
s
,
a
)
r
(
s
,
a
)
]
⏟
weighting expert and diverse data
+
Z
β
ψ
(
r
)
⏟
regularizer
,
(
2
)
L(r|\pi)\doteq\underbrace{Z_\beta\mathbb{E}_{s,a\thicksim\hat{\rho}^\pi}[r(s,a)]}_{\text{penalized on model rollouts}}-\underbrace{\mathbb{E}_{s,a\thicksim\bar{\rho}^E}[r(s,a)]}_{\text{increased on expert data}}-\underbrace{\mathbb{E}_{s,a\thicksim\bar{\rho}^D}[\beta(s,a)r(s,a)]}_{\text{weighting expert and diverse data}}+\underbrace{Z_\beta\psi(r)}_{\text{regularizer}},\quad(2)
L(r∣π)≐penalized on model rollouts
ZβEs,a∼ρ^π[r(s,a)]−increased on expert data Es,a∼ρˉE[r(s,a)]−weighting expert and diverse data Es,a∼ρˉD[β(s,a)r(s,a)]+regularizer Zβψ(r),(2)
其中权重 Z β ≐ 1 + E s ′ , a ′ ∼ ρ ~ D [ β ( s ′ , a ′ ) ] Z_{\beta}\doteq1+\mathbb{E}_{s^{\prime},a^{\prime}\sim\tilde{\rho}^{D}}[\beta(s^{\prime},a^{\prime})] Zβ≐1+Es′,a′∼ρ~D[β(s′,a′)], 经验分布 ρ ~ D ( s , a ) ≐ ( ∣ D E ( s , a ) ∣ + ∣ D B ( s , a ) ∣ ) / ( D E + D B ) \tilde{\rho}^{D}(s,a)\doteq(|\mathcal{D}_{E}(s,a)|+|\mathcal{D}_{B}(s,a)|)/(D_{E}+D_{B}) ρ~D(s,a)≐(∣DE(s,a)∣+∣DB(s,a)∣)/(DE+DB), ρ ~ E ≐ ∣ D E ( s , a ) ∣ / D E \tilde{\rho}^{E}\doteq|\mathcal{D}_{E}(s,a)|/D_{E} ρ~E≐∣DE(s,a)∣/DE。而 ρ ^ π \hat{\rho}^{\pi} ρ^π表示在学习得到的动力学模型在执行策略 π \pi π得到的占用度量。 -
max
π
∈
I
I
L
(
π
∣
r
)
≐
Z
β
E
s
,
a
∼
ρ
^
π
[
r
(
s
,
a
)
]
+
α
H
^
(
π
)
,
\max_{\pi\in\mathrm{II}}L(\pi|r)\doteq Z_\beta\mathbb{E}_{s,a\sim\hat{\rho}^\pi}[r(s,a)]+\alpha\widehat{H}(\pi),
π∈IImaxL(π∣r)≐ZβEs,a∼ρ^π[r(s,a)]+αH
(π),
文章回顾保守奖励函数优化问题,得到如下定义
D
ψ
D_\psi
Dψ为广义距离统计函数。上述结果说明CLARE 基于模型
T
^
\hat{T}
T^隐含优化一个策略,使得其占用度量保持在专家数据集
D
E
D_E
DE和联合离线数据集 D 的经验分布的插值附近。CLARE 试图通过选择适当的权重参数 β(s, a) 来权衡模型的探索和离线数据的利用。接下来核心便是如何选择
β
(
s
,
a
)
\beta(s,a)
β(s,a)。
CLARE基于不确定估计确定
β
\beta
β。不确定估计器为
c
(
s
,
a
)
=
max
i
∈
[
N
]
∥
Σ
i
(
s
,
a
)
∥
F
,
c(s,a)=\max_{i\in[N]}\|\Sigma_{i}(s,a)\|_{F},
c(s,a)=maxi∈[N]∥Σi(s,a)∥F,。那每个(s,a)的
β
\beta
β表示为
β
(
s
,
a
)
=
{
N
′
′
D
N
′
D
E
,
i
f
c
(
s
,
a
)
≤
u
,
−
D
D
E
⋅
1
[
(
s
,
a
)
∈
D
E
]
,
i
f
c
(
s
,
a
)
>
u
,
0
,
o
t
h
e
r
w
i
s
e
,
\beta(s,a)=\begin{cases}\frac{N''D}{N'D_E},&ifc(s,a)\leq u,\\-\frac{D}{D_E}\cdot\mathbf{1}[(s,a)\in\mathcal{D}_E],&ifc(s,a)>u,\\0,&otherwise,\end{cases}
β(s,a)=⎩
其中
u
u
u是一个超参数,
N
′
≐
∑
(
s
,
a
)
∈
D
1
[
c
(
s
,
a
)
≤
u
]
and
N
′
′
≐
∑
(
s
,
a
)
∈
D
E
1
[
c
(
s
,
a
)
>
u
]
N'\doteq\sum_{(s,a)\in\mathcal{D}}\mathbf{1}[c(s,a)\leq u]\text{ and }N''\doteq\sum_{(s,a)\in\mathcal{D}_{E}}\mathbf{1}[c(s,a)>u]
N′≐∑(s,a)∈D1[c(s,a)≤u] and N′′≐∑(s,a)∈DE1[c(s,a)>u]
Reward and policy regularizers
在实际操作中,对保守奖励优化问题中的
ψ
(
r
)
=
r
2
\psi(r)=r^{2}
ψ(r)=r2。奖励函数优化函数如下
L
(
r
ϕ
)
≐
Z
β
E
D
r
e
p
l
a
y
[
r
ϕ
(
s
,
a
)
]
+
Z
β
E
s
,
a
∼
D
∪
D
r
e
p
l
a
y
[
r
ϕ
(
s
,
a
)
2
]
−
E
s
,
a
∼
D
E
[
r
ϕ
(
s
,
a
)
]
−
E
s
,
a
∼
D
[
β
(
s
,
a
)
r
ϕ
(
s
,
a
)
]
.
\begin{aligned}L(r_{\phi})&\doteq Z_{\beta}\mathbb{E}_{\mathcal{D}_{\mathrm{replay}}}\left[r_{\phi}(s,a)\right]+Z_{\beta}\mathbb{E}_{s,a\sim\mathcal{D}\cup\mathcal{D}_{\mathrm{replay}}}\left[r_{\phi}(s,a)^{2}\right]\\&-\mathbb{E}_{s,a\sim\mathcal{D}_{E}}\big[r_{\phi}(s,a)\big]-\mathbb{E}_{s,a\sim\mathcal{D}}\big[\beta(s,a)r_{\phi}(s,a)\big].\end{aligned}
L(rϕ)≐ZβEDreplay[rϕ(s,a)]+ZβEs,a∼D∪Dreplay[rϕ(s,a)2]−Es,a∼DE[rϕ(s,a)]−Es,a∼D[β(s,a)rϕ(s,a)].
对策略优化采用SAC,而在这为了加速策略改进,从离线数据中采样batch的数据,将KL正则化加入其中
D
K
L
(
π
b
∥
π
)
≐
E
s
∈
D
′
[
E
a
∼
π
b
(
⋅
∣
s
)
[
log
π
b
(
a
∣
s
)
]
−
E
a
∼
π
b
(
⋅
∣
s
)
[
log
π
(
a
∣
s
)
]
]
,
D_{\mathrm{KL}}(\pi^b\|\pi)\doteq\mathbb{E}_{s\in\mathcal{D}^{\prime}}\Big[\mathbb{E}_{a\sim\pi^b(\cdot|s)}\Big[\log\pi^b(a|s)\Big]-\mathbb{E}_{a\sim\pi^b(\cdot|s)}\Big[\log\pi(a|s)\Big]\Big],
DKL(πb∥π)≐Es∈D′[Ea∼πb(⋅∣s)[logπb(a∣s)]−Ea∼πb(⋅∣s)[logπ(a∣s)]],
其中
π
b
(
a
∣
s
)
=
∑
(
s
′
,
a
′
)
∈
D
′
1
[
s
′
=
s
,
a
′
=
a
]
∑
(
s
′
,
a
′
)
∈
D
′
1
[
s
′
=
s
]
i
f
(
s
,
a
)
∈
D
′
, and
π
b
(
a
∣
s
)
=
0
o
t
h
e
r
w
i
s
e
\pi^b(a|s)=\frac{\sum_{(s^{\prime},a^{\prime})\in\mathcal{D}^{\prime}}\mathbf{1}[s^{\prime}=s,a^{\prime}=a]}{\sum_{(s^{\prime},a^{\prime})\in\mathcal{D}^{\prime}}\mathbf{1}[s^{\prime}=s]}\mathrm{~if~}(s,a)\in\mathcal{D}^{\prime}\text{, and }\pi^b(a|s)=0 ~~otherwise
πb(a∣s)=∑(s′,a′)∈D′1[s′=s]∑(s′,a′)∈D′1[s′=s,a′=a] if (s,a)∈D′, and πb(a∣s)=0 otherwise。这一项可以直接用
−
E
s
,
a
∼
D
′
[
log
π
(
a
∣
s
)
]
-\mathbb{E}_{s,a\sim\mathcal{D}^{\prime}}[\log\pi(a|s)]
−Es,a∼D′[logπ(a∣s)]代替实现。
伪代码
其中安全的策略改进过程如下
保守的奖励函数更新
结果
消融实验
对不同质量的离线数据进行消融
本文标签: ConservativeModelofflineCLAREBased
版权声明:本文标题:Offline : CLARE: Conservative Model-Based Reward Learning for Offline Inverse Reinforcement Learning 内容由热心网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:https://www.elefans.com/dianzi/1729755687a1212103.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论