【阅读随笔】Safe reinforcement learning under temporal logic with reward design and quantum action selecti

编程入门行业动态更新时间:2024-10-04 23:20:36

【阅读<a href=https://www.elefans.com/category/jswz/34/1768287.html style= 随笔】Safe reinforcement learning under temporal logic with reward design and quantum action selecti"/>

【阅读随笔】Safe reinforcement learning under temporal logic with reward design and quantum action selecti

今天读一篇来自Nature最水子刊SR的作品，名字中的量子动作选择听起来非常高大上，来看看是个什么东西

[1] M. Cai, S. Xiao, J. Li, and Z. Kan, “Safe reinforcement learning under temporal logic with reward design and quantum action selection,” Sci Rep, vol. 13, no. 1, Art. no. 1, Feb. 2023, doi: 10.1038/s41598-023-28582-4.

文章目录

Outline
Introduction
- 安全强化学习
- 基于抽象的MDP
- 量子计算
- 本文工作
Problem Formulation
- Preliminaries
- - Quantum computing
  - MDP
- 强化学习
- LDGBA
- Problem formulation
Automaton-based reward design
- Embedded LDGBA
- Embedded Product MDP
- Base reward
Safety value functions
Quantum action selection
- Grover搜索算法
Simulations and discussions

Outline

reward shaping - 避免稀疏奖励
safety value functions
quantum action selction
Embedded Limit-Deterministic Generalized Buchi Automaton
tasks of infinite and finite horizons

Introduction

安全强化学习

安全强化学习是指在学习过程中避免访问不安全状态。（Comment: 在仿真场景下，这个概念其实并没有讨论的意义，只有在真实的物理环境下进行学习时才有必要讨论安全问题。）当前的方法要么对系统假设过强、要么仅考虑安全而不考虑任务进度。

基于抽象的MDP

[16] Li, X., Serlin, Z., Yang, G. & Belta, C. A formal methods approach to interpretable reinforcement learning for robotic planning. Sci. Robot. 4 (37), (2019).
这篇文章设计了基于鲁棒度的自动机并结合了CBF来辅助学习，但是只考虑有限时域的任务

[17] Hasanbeig, M., Abate, A., & Kroening, D. Cautious reinforcement learning with logical constraints. AAMAS’20: Proceedings of the 19th International Conference on Autonomous Agents and MultiAgent Systems, 483–491 (2020).
使用LDGBA来记录LTL完成状态，使用model-based safe padding技术防止系统进入不安全状态，但是不能有效描述accepting sets

量子计算

机器学习与量子计算的结合称为QML，研究的是如何将数据编码为量子状态并利用量子系统的叠加属性解决具体问题。在强化学习中，可以使用量子计算加速神经网络，从而加入DRL的学习过程。

本文工作

提出了一种数学上严谨的reward设计规则
设计model-based safe padding来提高安全性，以一定的概率下界防止智能体落入坏状态
用E-LDGBA编码无限时域的LTL
提出safety value function与传统的value function相结合
提出了一种基于势函数的reward-shaping方法来避免稀疏奖励
使用量子计算方法改进了传统RL的e-greedy动作选择

Problem Formulation

Preliminaries

在问题陈述前，先介绍一下本文中涉及的一些概念

Quantum computing

量子比特：0/1状态的叠加（薛定谔）状态，只有当测量的时候其0,1值才发生坍缩 ∣ q 1 > = α 0 ∣ 0 > + α 1 ∣ 1 > \left|q_1\right>=\alpha_0\left|0\right>+\alpha_1 \left|1\right> ∣q1⟩=α0∣0⟩+α1∣1⟩，其中 α 0 , α 1 \alpha_0,\alpha_1 α0,α1是两个复数，其模的平方表示坍缩为0或1的概率
量子状态：由n个量子比特表示的一个状态变量，有 2 n 2^n 2n中坍缩可能，因此可写为以下形式 ∣ ψ n > = ∣ q 1 q 2 … q n > = ∑ k = 0 2 n − 1 a k ∣ k > \left|\psi_n\right>=\left|q_1q_2\dots q_n\right>=\sum_{k=0}^{2^n-1}a_k\left|k\right> ∣ψn⟩=∣q1q2…qn⟩=∑k=02n−1ak∣k⟩
量子寄存器：传统的n位寄存器在一个时刻能够存储一种2进制数组合，而量子寄存器神奇在能够储存所有的 2 n 2^n 2n种组合。
对比特，我们有与或非以及各种其他的门操作，而对于量子比特，同样存在各种门：
- Hadamard门(简称H门)：能够将0或1转化为等概率的叠加态
- 非门(X): X ∣ 0 > = ∣ 1 > , X ∣ 1 > = ∣ 0 > X\left|0\right>=\left|1\right>, X\left|1\right>=\left|0\right> X∣0⟩=∣1⟩,X∣1⟩=∣0⟩
- 异或门(CNOT, controlled-NOT): 第一个量子比特控制对第二个量子比特是否取反： C N O T ∣ 01 > = ∣ 01 > , C N O T ∣ 11 > = ∣ 10 > CNOT\left|01\right>=\left|01\right>, CNOT\left|11\right>=\left|10\right> CNOT∣01⟩=∣01⟩,CNOT∣11⟩=∣10⟩

MDP

这里MDP的定义为 M = ( S , A , p S , s 0 , Π , L ) \mathcal M = (S,A,p_S,s_0,\Pi, L) M=(S,A,pS,s0,Π,L)
其中 Π \Pi Π是原子命题集合， L L L是将状态映射到一个 Π \Pi Π的子集的函数

动作选择为确定性的函数 ξ \xi ξ，动作序列 ξ 0 ξ 1 … \xi_0\xi_1\dots ξ0ξ1…生成轨迹 s = s 0 s 1 s 2 … \mathbf s=s_0s_1s_2\dots s=s0s1s2…

这里提出一个比较特殊的点就是，状态转移概率对于任意状态都是为正的

为了处理复杂的时序任务，推导的控制策略依赖于现在与过去状态，但记忆有限

强化学习

本文基于Q-learning算法，基于贝尔曼方程更新Q值

LDGBA

LTL公式能够用一个LDGBA等效表示， A = ( Q , Σ , δ , q 0 , F ) \mathcal A=(Q,\Sigma,\delta,q_0,F) A=(Q,Σ,δ,q0,F)的状态集合 Q Q Q能够分为确定状态集合 Q D Q_D QD和非确定状态集合 Q N Q_N QN两部分, Q D Q_D QD内状态间的转移概率均为1， Q N Q_N QN到 Q D Q_D QD间转移需要接受 ϵ − t r a n s i t i o n \epsilon-transition ϵ−transition才有机会发生，且所有的接受态 F ⊆ Q D F\subseteq Q_D F⊆QD

LDBGA转移所留下的轨迹写作 q = q 0 q 1 … \mathbf q=q_0 q_1\dots q=q0q1…，令 inf ⁡ ( q ) \inf(\mathbf q) inf(q)指代 q \bf q q中无限循环的后缀，则这个后缀必须和接收态有交集才被接收