论文阅读笔记

编程入门行业动态更新时间:2024-10-11 07:30:31

论文阅读<a href=https://www.elefans.com/category/jswz/34/1770047.html style= 笔记"/>

论文阅读笔记

文章目录

Abstract
Introduction
- Related Work
Problem Statement and Background
- Safety Certification with Lyapunov Functions
- Computing SOS Lyapunov Functions
Learning Lyapunov Candidates
- Construction of a Neural Network Lyapunov Function
- Learning a Safe Set via Classification
Experiments

Abstract

这篇文章提出了一种方法通过学习得到一个非线性，闭循环系统的准确的安全验证。具体来说，本文构建了一个神经网络形式的拉普诺夫函数，并提出了一种训练算法调整其安全区域到最大。最后，本文通过学习一个模拟倒立摆的安全区域来评估了该算法的性能。

Introduction

说明了在许多如机器人系统，自动驾驶等系统中安全性的重要性。同时在学习的探索过程中，也需要进行安全的学习，因此需要堆状态进行安全验证。
在控制论中，一个状态集(a region of attraction,ROA)是安全的意味着：该集合中的轨迹都限定在该集合内且在一个控制策略的控制下渐近的收敛到一个固定点处。

Related Work

拉普诺夫函数是一种常用于稳定性认证和ROA评估的工具。这些函数将系统轨迹的长期行为编码为一个标量，因此一个ROA可以被编码为拉普诺夫函数的一个水平集。但是，生成动力系统的拉普诺夫函数是非常困难的，常用方法：如当动力方程是多项式时可将拉普诺夫函数限定为SOS多项式后用半正定规划（SDP）求解。
…

Problem Statement and Background

本文考虑离散时间，非时变确定的动力系统： s t + 1 = f ( x t , u t ) s_{t+1} = f(x_t, u_t) st+1=f(xt,ut)，其中 t ∈ N t \in N t∈N代表时间步， x t ∈ X x_t \in X xt∈X和 u t ∈ U u_t \in U ut∈U分别代表状态和控制输入。系统由一个反馈策略 π : X → U \pi : X \rightarrow U π:X→U控制，因此，最终的闭循环系统给定为： x t + 1 = f π ( x t ) x_{t+1} = f_\pi(x_t) xt+1=fπ(xt) 其中 f π ( x ) = f ( x , π ( x ) ) f_\pi(x)= f(x,\pi(x)) fπ(x)=f(x,π(x))。
本文假定该策略给定，且在状态空间的一个子集 S π S_\pi Sπ中是安全的，该子集 S π S_\pi Sπ即为 f π f_\pi fπ的一个ROA。即：从 S π S_\pi Sπ中任一状态x出发的轨迹仍在 S π S_\pi Sπ中且渐近的逼近一个平衡点 x o ∈ S π ， f π ( x o ) = x o x_o \in S_\pi，f_\pi(x_o)=x_o xo∈Sπ，fπ(xo)=xo，不失一般性的，本文假定 x o = 0 x_o=0 xo=0，并用 S π S_\pi Sπ表示策略 π \pi π下的实际的最大ROA。
本文的目标就是估算该最大安全集 S π S_\pi Sπ：假定 f π f_\pi fπ是Lipschitz连续的，且Lipschitz常数为 L f π ∈ R > 0 L_{f_\pi} \in R_{>0} Lfπ∈R>0

Safety Certification with Lyapunov Functions

Theorem 1(Lyapunov’s stability theorem):假设 f π f_\pi fπ是局部Lipschitz continuous且有一个平衡点 x o = 0 x_o=0 xo=0， v : X → R v:X \rightarrow R v:X→R，如果存在一个包含0的集合 D v ⊆ X D_v \subseteq X Dv⊆X，其中v是正定的且 Δ v ( x ) : = v ( f π ( x ) ) − v ( x ) < 0 , ∀ x ∈ D v \ { 0 } \Delta v(x) := v(f_\pi(x))-v(x) < 0, \forall x\in D_v \backslash \{0\} Δv(x):=v(fπ(x))−v(x)<0,∀x∈Dv\{0}，则 x o = 0 x_o=0 xo=

更多推荐

论文阅读笔记

本文发布于:2024-02-06 11:20:40，感谢您对本站的认可！

本文链接:https://www.elefans.com/category/jswz/34/1748753.html