【阅读随笔】Safe reinforcement learning under temporal logic with reward design and quantum action selecti

编程入门 行业动态 更新时间:2024-10-04 23:20:36

【阅读<a href=https://www.elefans.com/category/jswz/34/1768287.html style=随笔】Safe reinforcement learning under temporal logic with reward design and quantum action selecti"/>

【阅读随笔】Safe reinforcement learning under temporal logic with reward design and quantum action selecti

今天读一篇来自Nature最水子刊SR的作品,名字中的量子动作选择听起来非常高大上,来看看是个什么东西

[1] M. Cai, S. Xiao, J. Li, and Z. Kan, “Safe reinforcement learning under temporal logic with reward design and quantum action selection,” Sci Rep, vol. 13, no. 1, Art. no. 1, Feb. 2023, doi: 10.1038/s41598-023-28582-4.

文章目录

  • Outline
  • Introduction
    • 安全强化学习
    • 基于抽象的MDP
    • 量子计算
    • 本文工作
  • Problem Formulation
    • Preliminaries
      • Quantum computing
      • MDP
    • 强化学习
    • LDGBA
    • Problem formulation
  • Automaton-based reward design
    • Embedded LDGBA
    • Embedded Product MDP
    • Base reward
  • Safety value functions
  • Quantum action selection
    • Grover搜索算法
  • Simulations and discussions

Outline

  • reward shaping - 避免稀疏奖励
  • safety value functions
  • quantum action selction
  • Embedded Limit-Deterministic Generalized Buchi Automaton
  • tasks of infinite and finite horizons

Introduction

安全强化学习

安全强化学习是指在学习过程中避免访问不安全状态。(Comment: 在仿真场景下,这个概念其实并没有讨论的意义,只有在真实的物理环境下进行学习时才有必要讨论安全问题。)当前的方法要么对系统假设过强、要么仅考虑安全而不考虑任务进度。

基于抽象的MDP

[16] Li, X., Serlin, Z., Yang, G. & Belta, C. A formal methods approach to interpretable reinforcement learning for robotic planning. Sci. Robot. 4 (37), (2019).
这篇文章设计了基于鲁棒度的自动机并结合了CBF来辅助学习,但是只考虑有限时域的任务

[17] Hasanbeig, M., Abate, A., & Kroening, D. Cautious reinforcement learning with logical constraints. AAMAS’20: Proceedings of the 19th International Conference on Autonomous Agents and MultiAgent Systems, 483–491 (2020).
使用LDGBA来记录LTL完成状态,使用model-based safe padding技术防止系统进入不安全状态,但是不能有效描述accepting sets

量子计算

机器学习与量子计算的结合称为QML,研究的是如何将数据编码为量子状态并利用量子系统的叠加属性解决具体问题。在强化学习中,可以使用量子计算加速神经网络,从而加入DRL的学习过程。

本文工作

  • 提出了一种数学上严谨的reward设计规则
  • 设计model-based safe padding来提高安全性,以一定的概率下界防止智能体落入坏状态
  • 用E-LDGBA编码无限时域的LTL
  • 提出safety value function与传统的value function相结合
  • 提出了一种基于势函数的reward-shaping方法来避免稀疏奖励
  • 使用量子计算方法改进了传统RL的e-greedy动作选择

Problem Formulation

Preliminaries

在问题陈述前,先介绍一下本文中涉及的一些概念

Quantum computing

  • 量子比特:0/1状态的叠加(薛定谔)状态,只有当测量的时候其0,1值才发生坍缩 ∣ q 1 > = α 0 ∣ 0 > + α 1 ∣ 1 > \left|q_1\right>=\alpha_0\left|0\right>+\alpha_1 \left|1\right> ∣q1​⟩=α0​∣0⟩+α1​∣1⟩,其中 α 0 , α 1 \alpha_0,\alpha_1 α0​,α1​是两个复数,其模的平方表示坍缩为0或1的概率
  • 量子状态:由n个量子比特表示的一个状态变量,有 2 n 2^n 2n中坍缩可能,因此可写为以下形式 ∣ ψ n > = ∣ q 1 q 2 … q n > = ∑ k = 0 2 n − 1 a k ∣ k > \left|\psi_n\right>=\left|q_1q_2\dots q_n\right>=\sum_{k=0}^{2^n-1}a_k\left|k\right> ∣ψn​⟩=∣q1​q2​…qn​⟩=∑k=02n−1​ak​∣k⟩
  • 量子寄存器:传统的n位寄存器在一个时刻能够存储一种2进制数组合,而量子寄存器神奇在能够储存所有的 2 n 2^n 2n种组合。
  • 对比特,我们有与或非以及各种其他的门操作,而对于量子比特,同样存在各种门:
    • Hadamard门(简称H门):能够将0或1转化为等概率的叠加态
    • 非门(X): X ∣ 0 > = ∣ 1 > , X ∣ 1 > = ∣ 0 > X\left|0\right>=\left|1\right>, X\left|1\right>=\left|0\right> X∣0⟩=∣1⟩,X∣1⟩=∣0⟩
    • 异或门(CNOT, controlled-NOT): 第一个量子比特控制对第二个量子比特是否取反: C N O T ∣ 01 > = ∣ 01 > , C N O T ∣ 11 > = ∣ 10 > CNOT\left|01\right>=\left|01\right>, CNOT\left|11\right>=\left|10\right> CNOT∣01⟩=∣01⟩,CNOT∣11⟩=∣10⟩

MDP

这里MDP的定义为 M = ( S , A , p S , s 0 , Π , L ) \mathcal M = (S,A,p_S,s_0,\Pi, L) M=(S,A,pS​,s0​,Π,L)
其中 Π \Pi Π是原子命题集合, L L L是将状态映射到一个 Π \Pi Π的子集的函数

动作选择为确定性的函数 ξ \xi ξ,动作序列 ξ 0 ξ 1 … \xi_0\xi_1\dots ξ0​ξ1​…生成轨迹 s = s 0 s 1 s 2 … \mathbf s=s_0s_1s_2\dots s=s0​s1​s2​…

这里提出一个比较特殊的点就是,状态转移概率对于任意状态都是为正的

为了处理复杂的时序任务,推导的控制策略依赖于现在与过去状态,但记忆有限

强化学习

本文基于Q-learning算法,基于贝尔曼方程更新Q值

LDGBA

LTL公式能够用一个LDGBA等效表示, A = ( Q , Σ , δ , q 0 , F ) \mathcal A=(Q,\Sigma,\delta,q_0,F) A=(Q,Σ,δ,q0​,F)的状态集合 Q Q Q能够分为确定状态集合 Q D Q_D QD​和非确定状态集合 Q N Q_N QN​两部分, Q D Q_D QD​内状态间的转移概率均为1, Q N Q_N QN​到 Q D Q_D QD​间转移需要接受 ϵ − t r a n s i t i o n \epsilon-transition ϵ−transition才有机会发生,且所有的接受态 F ⊆ Q D F\subseteq Q_D F⊆QD​

LDBGA转移所留下的轨迹写作 q = q 0 q 1 … \mathbf q=q_0 q_1\dots q=q0​q1​…,令 inf ⁡ ( q ) \inf(\mathbf q) inf(q)指代 q \bf q q中无限循环的后缀,则这个后缀必须和接收态有交集才被接收

Problem formulation

本文解决的问题为最大化在控制策略下轨迹满足goal LTL的概率,同时在学习过程中保持safe LTL的满足

Automaton-based reward design

[15]显示LDGBA的状态信息不足以让智能体找到理想的确定性策略,因此这里提出E-LDBGA的概念来给信息增加几个维度。

Embedded LDGBA

E-LDGBA在LDGBA的基础上增广了2个变量:

  • T T T叫做tracking frontier set: 用来记录还有哪几个接收状态没有被访问
  • B \mathcal B B:将所有的接收状态被访问一次记为一轮,用一个布尔变量来标记该轮的完成情况

这两个变量与系统状态同步更新,其更新规则如下所示,其中 F j F_j Fj​为某个接收状态

E-LDGBA的定义如下所示,新的自动机状态为 ( q , T ) (q,T) (q,T)

Embedded Product MDP

将抽象系统的MDP与约束MDP做叉乘,我们可以得到乘积MDP

  • 叉乘系统的状态为 x = ( s , l , q , T ) x=(s,l,q,T) x=(s,l,q,T) 包含了物理状态、标签、自动机状态以及frontier set
  • 叉乘系统的接受态子集集合 F P F^P FP

Base reward

当且仅当当前状态处于 F U P F_U^P FUP​内的时候才能获得奖励,

Safety value functions

Quantum action selection

Grover搜索算法

❓ Grover算法是一种在无序序列中进行搜索的量子计算方法,复杂度仅有 O ( N ) O(\sqrt{N}) O(N ​),能用来加速传统q-learning中的e-greedy动作选择。

Simulations and discussions

更多推荐

【阅读随笔】Safe reinforcement learning under temporal logic with reward design and qu

本文发布于:2024-02-28 09:50:24,感谢您对本站的认可!
本文链接:https://www.elefans.com/category/jswz/34/1769507.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文标签:随笔   learning   temporal   reinforcement   logic

发布评论

评论列表 (有 0 条评论)
草根站长

>www.elefans.com

编程频道|电子爱好者 - 技术资讯及电子产品介绍!