RadarNet: Efficient Gesture Recognition Technique Utilizing a Miniaturized Radar Sensor

编程知识更新时间:2023-04-29 08:30:49

（CHI：A类会议2021）利用小型化雷达传感器的高效手势识别技术

目标：通过这篇顶会查看数据预处理的方法、对比实验的设立、结论的书写（关注语句逻辑）

摘要：

语句框架：

1、介绍：

2、相关工作：

3、雷达原理

4、手势定义

5、radarnet算法

5.1 radarnet 输入

5.2 radarnet输出

5.3radarnet算法

5.4 手势防反跳

6、硬件

7、数据集

7.1正例数据集

7.2 负例数据集

7.3 训练、开发和测试集

7.4 采样

8、评估

8.1、分段分类任务

8.2、计算效率

8.3、不分段识别任务

8.4、对抗数据的鲁棒性

8.5、性能和数据集大小

9、使用案例

10、局限性

11、结论和未来方向

摘要：

手势是环境计算中一个很有前途的输入方式，因为传统的输入方式如触摸屏是不可用的。现有的工作集中在使用图像传感器的手势识别上。然而，它们的成本，高电池消耗和隐私问题使相机作为一个永远在线的解决方案具有挑战性。本文介绍了一种利用60ghz小型化雷达传感器实现手势识别的方法。该技术通过集成到手机中的雷达芯片(6.5 × 5.0 mm)识别四次定向滑动和一次全方位擦拭。我们开发了一个卷积神经网络模型，对电池供电和计算受限的处理器足够有效。它的模型大小和推理时间小于1/5000与现有的雷达手势识别技术相比。我们对55.8万个手势样本和392万个阴性样本组成的大规模数据集进行了评估，证明了我们的算法的效率、鲁棒性，并且可以在研究实验室之外部署。

语句框架：

介绍目前现状，引入xx。现有工作xx，存在的挑战。论文使用的方法（概述），方法使用的技术手段。创新点介绍，效果说明。实验的效果指标、数据集大小，证明的结论。

1、介绍：

新一代的消费产品，如声控扬声器[1,12]、智能恒温器[13]和交互式服装[14]，已经把环境计算系统的一些承诺带进了我们的家庭，在我们专注于日常任务和日常事务时在后台提供帮助。正如Weiser在他关于“平静技术”的开创性论文[36]中所指出的那样，“如果计算机将无处不在，它们最好离我们远点。”在一个技术变得无所不在的世界里，设计与处于关注边缘的产品的交互是高度相关的。

通过一些参考文献的引入，简略介绍大环境的情况。

手势输入是环境计算交互的一个很有前途的候选者[34]:它为设计不需要眼睛和较少认知要求的交互提供了机会，允许用户在从事主要任务(如烹饪、开车)的同时访问信息和服务[18,28]。然而，从麻省理工学院[3]的早期研究工作到最近的产品发布，如微软Kinect[24]，大多数手势识别技术的工作都集中在屏幕交互上，这通常需要完全的用户注意力作为主要任务。在环境计算上下文中考虑手势交互时，我们需要考虑一组不同的技术和交互需求，因为用户将在他们注意力的外围与设备进行交互:

切入正题，简略介绍。介绍挑战、需要的条件

始终打开:手势识别技术应该持续运行，随时准备好用户想要发起交互。在环境计算系统中，基于手势的交互的价值在于其即时性:用户可以快速地与外围设备进行简单任务的交互，只需最少的认知努力，也不需要复杂的手眼协调。任何摩擦，比如唤醒设备的需要，都会影响在这些情况下手势交互的有效性。
可靠:用于环境计算应用程序的手势识别技术应该在各种不同的上下文中工作。这些设备可以佩戴(如智能手表)，携带(如手机)，或固定在给定的环境中(例如，陈列在床头柜上)。它们应该能抵御环境变化，如气温和照明条件。
隐私:具有先进传感功能的产品在个人空间的普及，如我们的卧室、客厅或工作场所，使隐私成为它们被广泛采用的关键因素。
小:手势识别技术应该占用很小的空间，以便嵌入各种各样的对象，而不影响它们的形状因素或美学。
隐形:这种技术应该消失在表面后面，不需要打开或对产品的物理设计进行其他修改。新一代设备旨在共享我们的家庭环境，工业设计的质量是采用它们的关键因素。

本文介绍了一种使用雷达感知技术Soli的手势识别技术RadarNet，该技术具有多种具有吸引力的特性，可用于在环境中部署手势交互计算。Soli基于定制设计的固态BiCMOS雷达传感器芯片1，该芯片价格低廉，足够小，可以集成到空间受限的设备中。雷达射频信号通过塑料、玻璃和其他非金属材料传播;因此，我们可以将芯片无形地放置在设备外壳内。射频波不受环境光或噪声的影响。与基于图像的传感器相比，Soli对隐私的侵犯更少，因为雷达不会产生可区分的目标空间结构的表示。最后，Soli对亚毫米级位移的灵敏度不受距离的影响，允许用相同的硬件在近场和远场进行运动识别。

利用这些基于雷达的传感的独特优势，我们开发了一种交互式技术，可以识别四种方向手势(右、左、上、下)和全方位滑动，即在任何方向上滑动动作，包括对角线。

利用基于xx的优势，开发了一种xx技术，可以实现xx

综上所述，本文的贡献如下:

基于雷达的半导体传感器的开发具有非常小的占地面积，允许集成芯片到具有严格的形状因素限制的设备(例如，手机、智能手表)。
RadarNet的开发，一种新的算法，识别手势与未分割的时间序列雷达信号与微小的计算资源消耗。我们的模型的大小和推理时间小于现有工作[35]的0.02%，允许算法在电池供电的设备上运行。（关注此部分实验设计）
提出了该算法所采用的深度神经网络结构的设计原理，可推广到其他基于雷达的手势识别系统的开发中。（瞅瞅咋应用改进的）
使用比现有基于雷达的手势识别技术工作中使用的数据集大几百倍的大规模数据集来评估所提出的算法。利用大规模数据集，我们进行了新的评估，如算法从未分割的数据流中检测手势的任务的性能分析，以及数据集大小对手势识别性能的影响。（对比实验中将不同的算法放在一个大规模数据集下凸出自己优势）
最后，我们为我们的手势识别技术提供了一组用例，概述了这种输入法在环境计算环境中的新机会。

2、相关工作：

传统的输入法，如鼠标、键盘和触摸屏，是用计算设备执行复杂任务最常用的方法。在环境计算应用程序的上下文中，其他输入方法，如语音和手势交互，正变得越来越流行。这些模式允许用户在访问和操作数字信息的同时，从事其他更重要的任务(例如，烹饪和用餐)。

当前环境中常用方法，方法的便利性

由于个人助理在手机上的普及(例如，Assistant[11]和Siri[2])和智能音箱(例如Amazon Echo[1]和Nest Home Hub[12])。虽然这些语音交互是有希望的，命令通常很长;用户在开始互动之前，必须把热词念出来;而且在某些情况下，比如在安静的地方和谈话时，对某些用户来说，社会接受度可能是个问题。

现状的普及。虽然xx（主题的优势），会面临的现实挑战

手势交互已经在人机交互领域进行了研究，通常使用基于相机的传感系统[26]。早期的3D手姿估计工作使用深度图像(例如，[22,30])。最近，随着机器学习的进步，大量工作集中在使用标准RGB相机对手(包括闭塞部位)的3D姿态估计上[9,25]。最近的其他工作已经实现了在手机上通过内置摄像头[38]进行实时手部姿势估计。然而，由于视野有限，摄像机无法探测到远离传感器视线的手。此外，相机的功耗防止长时间运行在电池供电的设备上。最后，保持摄像头一直开着存在强烈的隐私担忧(例如，[5,37])。这些限制使得使用相机作为环境计算应用程序的输入方法具有挑战性，因为环境计算应用程序需要始终在线的传感系统来保护用户隐私。

介绍xx的最早研究。最近，随着机器学习的进步，大量的工作集中在~~。然而，由于（存在的挑战）。最后，~~存在强烈的隐私担忧（引入隐私方面的参考文献）。因为环境计算应用程序需要xx来保护用户隐私，使得这些限制使用XX作为环境计算应用程序的训练方法具有挑战性

为了应对这些挑战，许多工作探索了其他传感模式，包括红外接近传感器[4]和手机上的内置磁力计，用于检测附着在指尖[16]或控制器上的磁铁产生的磁场[18]。“人体天线”通过测量使用者身体某一部位的电压，识别出12种全身手势，利用全身作为接收周围电噪声[8]的天线。声波使用笔记本电脑上的内置扬声器和麦克风，用超声波[15]检测手势。

为了应对这些挑战，许多工作探索了其他xx模式，包括（参考文献与简略内容）

其他研究利用了现有的无线信号(例如[6])。WiSee识别了9个家庭尺度的全身姿势WiFi信号的多普勒效应[29]。WiFinger专注于利用WiFi信号[32]检测手指水平手势。AllSee是一种使用电视或射频识别信号[21]的高效手势识别系统。这些方法的优点是利用现有的无线信号，不需要部署额外的系统;然而，目前还不清楚这些技术在实践中有多强大，因为信号将根据不同地方的现有射频设施而不同。

最后，也有一些使用60 GHz雷达信号进行手势识别的工作。Soli是谷歌公司开发的用于手势识别的小型化雷达。他们提出了一种基于特征提取和随机森林分类器[23]的手势识别系统。崔et al。开发了一种将LSTM应用于距离剖面和从距离多普勒幅值[7]提取的多普勒剖面的手势识别系统。与这些依赖特征提取的工作相比，Wang等人提出了一种与我们的工作最接近的基于雷达的手势识别系统，其模型由卷积层和LSTM层[35]组成。

在这篇论文中，我们提出了一种滑动手势识别技术，该技术利用Soli小型化雷达传感器，优化了环境计算系统。我们的工作与现有工作有很多不同之处。首先，我们的模型比现有的模型效率高了好几个数量级。与[35]中提出的模型相比，该模型的大小和推断时间小于1/5000，使模型能够在计算量有限的设备(如手机)上运行（现在真的能在手机上训练吗，持怀疑）。其次，我们对模型进行了评估，在一个更实际的任务中，算法必须用未分割的时间序列数据来识别手势。相比之下，已有的研究[7,23,35]基于预分割数据的分类任务来评估性能，其中每个段代表一个且仅代表一个手势，并且手势模式在时间维度上对齐。我们的任务更具挑战性和实用性，符合本文介绍中概述的环境计算应用程序的要求。最后，我们用更大的数据集训练和评估我们的模型，使我们的结果更有信心可以推广到实际应用中。

在这篇论文中，我们提出了一种xx识别技术，该技术利用xx，优化了环境计算系统。我们的工作与现有工作有很多不同之处。首先，我们的模型比现有的模型效率（提高看多少）。与[]提出的模型相比（在对比实验部分所对比的参考文献），该模型的大小（推断时间），使模型能够在计算量有限的设备上运行。其次，我们对模型进行了评估，在一个更实际的任务中，（提出的现实应对场景，可以对应到non）。相比之下，已有的研究（参考文献）基于xx任务来评估性能，其中（参考的内容），并且（参考的内容）。我们的任务更具挑战性和实用性，符合本文介绍中概述的环境计算应用程序的要求。最后，我们用更大的数据集训练和评估我们的模型，使得我们的结果更有信息可以推广到实际应用中。

3、雷达原理

我们的传感系统使用Soli调频连续波(FMCW)雷达，基于[23]中描述的原理。在高水平上，我们用宽的150度雷达波束以非常高的脉冲重复率(PRF)重复啁啾，照亮周围环境，包括手和身体。与[23]相反，我们使用突发传输方案:我们在一个突发中发送16个啁啾(图2)，然后停止传输，直到下一个突发的啁啾。使用的PRF2000hz和25hz的突发率，整体传输占空比小于2%。与现有工作[23,35]中使用的雷达芯片连续发出啁啾的传输模式相比，该突发方案显著降低了传感器的平均功耗。

（未完全，不懂这方面内容）

4、手势定义

本文提出的交互技术是基于对空中滑动手势的识别。滑动手势类似于我们操作物理物体的动作(例如，滑动物体)，也类似于触摸表面上的数字物体。它为用户所熟悉，易于执行和记忆。正如本文的用例部分所讨论的，空中滑动是一种简单的手势，有可能实现大量的用例。

5、radarnet算法

本节介绍RadarNet，一种使用雷达进行手势识别的新算法。在本文中我们进行了应用和验证RadarNet能够识别近距离的定向滑动手势(即上、下、左、右滑动)，以及全方位滑动(即任何方向的滑动)。然而，RadarNet的基本原理是通用的，可以用来设计使用雷达传感器进行手势识别的各种新算法。

RadarNet手势识别管道如图6所示它包括a)雷达信号处理，b)一个新的卷积神经网络架构(图7)，以及c)一个手势脱扣器。该管道使用从25赫兹突发传输接收的雷达信号作为输入。每一帧，雷达芯片都会发送一波16chirps并捕捉周围物体的反射。雷达信号处理算法将接收到的信号转换为复杂的距离多普勒图。RadarNet的帧模型将距离多普勒图进一步处理为32个值组成的帧摘要。RadarNet的时间模型结合了最后12帧的总结和输出预测。最后，手势脱扣器处理预测以识别滑动手势。

图6：该管道将信号处理算法应用到雷达信号中，为每次爆炸计算复杂的距离多普勒图。利用 RadarNet的帧模型，将复杂距离多普勒图转换为32个值的摘要。然后利用RadarNet的时间模型对最后12帧的摘要进行纵向、横向和全域预测。最后，手势解约器输出识别手势。

图7：RadarNet由时间模型和帧模型组成。帧模型将一帧复距离多普勒图总结为32个值。时间模型将12帧的摘要与LSTM结合起来，然后应用三个密集层，输出肖像、风景和全刷预测的三组概率。

5.1 radarnet 输入

我们使用复杂距离多普勒图作为输入，而现有的工作使用绝对距离多普勒图[7,35]。复杂距离多普勒图包含目标角位置的相位信息;因此，该模型可以更好地识别复杂距离多普勒地图的方向性手势。我们也尝试使用绝对距离多普勒地图和干涉测量距离多普勒图作为模型的输入，考虑到数据表示更容易为人类理解，可导致更好的模型性能;然而，在模型性能上没有显著差异。因此，我们选择使用复范围以多普勒作为输入，消除了将复杂距离多普勒图处理为绝对距离多普勒图和干涉距离多普勒图的计算成本。值得注意的是，没有明确的证据表明该模型计算的数据表示类似于干涉图;然而，传递完整的复杂范围多普勒地图作为输入，允许模型利用信息时，它有助于作出预测。

从这三个接收器，我们计算三个复范围每一帧都有多普勒地图。每张地图是二维复杂数据，有64个距离箱和16个多普勒箱。一个框架64个距离箱× 16个多普勒箱× 3个接收器× 2个数值(实数和虚数)作为浮点表示。因为滑动动作发生在手机附近，所以我们在第24个桶处裁剪距离桶，对应于0.79米。数据被重塑为一个大小为24 × 16 × 6的张量，并传递给框架模型。我们对不同形状的输入张量进行了实验，发现将复维和接收维结合起来并将其映射到输入张量的通道是至关重要的。这是因为张量中的距离多普勒单元包含表示角位置的完整干涉信息。

使用xx，而现有的工作使用xx。介绍使用xx的优势；因此，该模型可以更好的识别~~

阐述现有技术在使用时的不足，使用xx在模型性能优势或（有助于作出预测）

5.2 radarnet输出

RadarNet输出三组预测(表1)。纵向、横向和全域预测分别包括三类、三类和两类。在每个预测中，类概率和为1。三种预测的所有概率之和为3，因为不同预测中的类别并不互斥。全向滑动定义为任意方向的滑动;因此，它们包括定向滑动。此外，通过进行肖像预测(左、右、背景)和景观预测(上，下，背景)独立，当肖像和景观预测被触发时，算法可以识别对角线滑动。反映这一设计选择的是，在LSTM之后，RadarNet有三个密集的层(图7(a))。每个密集层输出三个预测集中的概率。

表1：RadarNet输出三种预测:纵向、横向和全向。这些预测分别包含三个、三个和两个类概率。注意，一个预测中的类是互斥的，而两个预测之间的类不是互斥的

描绘输出的结果，分为多少个体。在每个预测中，类概率和为1。

5.3radarnet算法

RadarNet由框架模型和时间模型组成。框架模型有卷积、池化和激活层，利用剩余块[17]和瓶颈块[31]。在模型开始时，输入张量在范围维度上切片，并应用1 × 1的残差块。这是为了弥补复杂距离多普勒地图在距离维度上动态范围较宽的缺点。1 × 1残块能够进行类似于干涉测量的计算。接下来，将片连接起来，并应用一个瓶颈块和一个3×3残留块。最后，利用3个卷积层和2个密集层将一个张量总结为32个值。对于所有的卷积层，在多普勒维中使用圆形填充来补偿任何多普勒混叠，在距离维中使用零填充。

时间模型将当前帧的摘要与前11帧的摘要连接起来，并将它们传递到LSTM层。然后将LSTM层的输出通过softmax传递给三个密集层，后者输出与表1中的三个预测对应的三组类概率。

5.4 手势防反跳

RadarNet为给定的12帧段输出类概率，我们称之为分段分类任务。然而，在实践中，算法必须从未分割的数据流中识别手势。这种非分段识别任务比分段分类任务要困难得多，因为它不知道手势在非分段时间序列数据中的位置。为了执行非分段识别任务，我们使用来自RadarNet的预测作为输入添加了以下启发式:

要检测到一个手势，该手势的可能性应该高于最后连续三帧的阈值。
在检测到一个手势后，所有的手势概率都应该小于0.3，然后再检测到下一个手势

阈值是通过实验确定的，以便在召回和假阳性之间达到理想的平衡

6、硬件

我们开发了一种新的Soli芯片，具有一个发射器和三个接收器(图8)。天线的数量从之前Soli芯片[23]的两个发射器和四个接收器减少，使芯片的占地面积从12×12 mm缩小到6.5×5.0 mm。虽然天线的减少导致了信噪比的下降，我们选择采用新的天线配置，使芯片的占地面积足够小，以集成到手机。接收器以L形对齐，天线之间有2.5毫米的缝隙(图4)。Soli芯片位于手机的顶部边框(图9)。由于射频信号穿透塑料外壳，所以不需要在芯片顶部开孔。这有利于该设备的工业设计，以及防水等功能。

7、数据集

为了训练和评估我们的模型，我们收集了5019小时的手势样本和负面样本。这是它的几百倍与现有工作(例如[35])中使用的数据集相比，雷达样本的手势识别。数据收集需要记录雷达信号，同时参与者在手机周围进行滑动手势和非滑动动作，比如伸手触摸手机和与触摸屏交互。正负数据收集将在下面详细说明。

看过的顶会文章，在数据集部分都会进行数据正负样本的介绍，或采样方法（负样本远远大于正样本的数量）

正负样本是在训练过程中计算损失时使用的，而在预测过程和验证过程是没有这个概念的

训练阶段的核心在于损失函数的设计，输出的张量与标签标注的求损失，从而去更新网络。正样本是该类所标注的图像，负样本是其他类所有图像

7.1正例数据集

我们从来自9个不同地点的7647名参与者中收集了滑动手势样本。所有的参与者都是通过我们组织的电子邮件和网站招募的。63%的参与者是男性，36%的参与者是女性，还有1%的参与者身份不明。86%的人是右撇子，5.7%的人是左撇子，4.6%的人是双撇子，3.5%的人是未指明的。数据收集由监考人员进行，他们参加了两天的培训课程，以使数据收集尽可能一致。每次数据收集研究持续约30分钟。最初，参与者被要求阅读并签署同意书。然后，研究人员向他们展示了说明数据收集会话的总体过程的说明幻灯片、数据收集UI和从两个不同角度滑动手势的视频。在我们的试点研究中，我们给参与者对滑动动作的定量定义，假设它可以帮助参与者做出满足条件的手势。然而，这导致了不自然的机器人滑动动作，因为在给出详细指令的情况下，参与者的动作太过谨慎。因此，我们选择在这项研究中给出视觉指示，然后从数据集中过滤掉不满足数值条件的手势。

在观看完幻灯片后，参与者被要求与放在桌上的手机互动。随后的所有指示都显示在电话上。为了使收集到的手势样本数量最大化，参与者被要求完成尽可能多的会话，这取决于所有指令下达后还剩下多少时间。在每节课中，我们在实验条件下收集了12个手势样本。这些条件是1)参与者的姿势(坐着和站着)，2)手机的放置位置(在桌子上和在参与者手中)，3)手机的朝向(纵向，手机顶部在参与者右侧的横向，以及手机顶部在参与者左侧的横向)。这些参数的组合被随机选择并显示在手机上。设置方向设置的概率，以平衡肖像和风景方向收集的手势数量。

一旦参与者按下开始试验按钮(图10(a))，就会显示一个模拟音乐应用程序的UI(图10(b))，应用程序开始记录雷达信号。然后一个箭头显示在显示器的中央，指示着滑动的方向(图10(c))。参与者被指示按照箭头指示的方向进行滑动手势。在手势提示和执行后，参与者被分配了分散注意力的任务，如捡起设备附近的物体(如钢笔)，移动设备上方的物体(如杯子)，伸手拿起设备，轻敲屏幕，以避免习惯化。四个方向(上、下、左、右)按随机顺序提示了三次。当参与者做出每个手势时，监控员会按下远程点击器上的一个按钮，在手机显示屏上提供视觉反馈，就好像手机对参与者的滑动做出了回应。从手势提示到点击按钮的时间窗口被标记为一个手势段，并以滑动的方向记录。这些标签被用来创建数据集和执行评估。

7.2 负例数据集

我们收集雷达信号，同时人们进行类似滑动的动作，用于我们的机器学习训练和算法评估。我们记录了285个小时的数据，参与者以各种方式与手机互动，比如伸手触摸手机和与触摸屏互动。

为了在更广泛的背景下收集数据，我们还实验定义了以下五个类别:1)手持手机走路任务，2)靠近手机的常见运动任务，3)手持手机时的常见运动任务，4)手机平放时的常见运动任务，5)手机平放时的常见运动任务X, Y, Z平面)。我们为每个类别定义了大约10个场景，总共52个场景。每个场景都分为两种类型:1)记录手机周围的自然行为，包括类似滑动的动作(例如，擦桌上有手机的桌子)和2)重复类似于滑动手势的手部动作(例如，将一个物体从手机的一侧移到另一侧)。在现有的工作中，系统已经用第一类进行训练和评估;然而，我们选择针对这两种类型的对抗性记录进行训练和评估，以提高我们系统的鲁棒性。

我们要求我们的工程团队执行这52个场景的数据收集，因为从IRB的角度很难让参与者遵循这些场景作为用户研究。数据是通过一个Android应用程序收集的，该应用程序专门针对定义的负面协议进行了定制。当参与的团队成员从52个场景中选择一个时，该场景的协议就会显示在手机显示屏上，比如“把手机放在袖标上，在跑步机上跑10分钟。”在这些过程中，参与者被给予了以下指导:1)不要进行任何有意的滑动，2)以最自然的行为执行任务，3)允许自然变化的躺/坐位置，以增加数据集的多样性。当参与者遵循协议时，Android应用程序记录雷达信号。

7.3 训练、开发和测试集

我们删除了由于系统问题或参与者不遵守指示而导致的无效手势记录。我们进一步过滤了距离显示表面太远或振幅不足的手势。数据清理后，我们有5.58 × 105的手势记录。我们将录音分为训练集、开发集和测试集(表2)。训练集用于训练机器学习模型，而开发集用于评估模型在训练和超参数调优期间的性能。测试集用于评估训练模型的性能，如评估部分所述。这些数据是在用户研究的基础上划分的;因此，来自同一参与者的数据没有被分割成多个数据集。

表2：每个数据集的正样本数。在记录的基础上对样本进行拆分。因此，来自任何一个参与者的手势都没有被分成多个数集。

可以模仿数据集划分（画表格展示）比例划分： 4.3：1：1.2

训练集用于训练机器学习模型，而开发集用于评估模型在训练和超参数调优期间的性能。测试集用于评估训练模型的性能

在数据拆分后，我们细化了积极数据收集中附加的标签。因为在箭头显示的时间和参与者开始做手势的时间之间，以及从参与者做手势的时间和监事点击按钮的时间之间都有延迟，我们用标签细化算法对标签进行后处理，以识别参与者的手最接近Soli传感器的中心帧。在中心帧周围提取12个帧作为每个手势的阳性样本。对于训练集，我们还提取了窗口前后两个时间窗口，以增加时域的可变性。我们还通过随机选择一个因子，从均值为1、标准差为0.025的正态分布中缩放雷达信号，将正样本增加3倍。

我们以固定的时间间隔从负面记录中提取12帧，然后将其分成训练集、开发集和测试集，从而生成负样本。因为阴性样本的数量多于阳性样本的数量样本中，我们抽取了负面数据，使正面和负面样本的比例保持在1:6，这是为了优化模型性能而选择的实验值。

研究一下识别中正负样本选取与比例划分，如何进行采样策略

对于每个样本，我们附加了三个标签:纵向滑动标签、横向滑动标签和与表1中的三个预测相对应的全滑动标签。阳性样本除背景外至少有一种标签。阴性样本以所有标签为背景。

评价集也被用作时间序列数据，没有分割的描述在无分割的识别任务评价部分。在这项任务中，参与者做手势的时间窗口根据积极数据收集中附加的标签标记出手势的类型。其他帧被标记为背景。

7.4 采样

为了更好地理解传感器数据，我们可视化了数据集中的一些样本。图11显示了一个清晰的左滑动显示为一系列复杂的距离多普勒地图的例子。每一列从左到右是一个时间框架。上面两行是来自RX0的实值和虚值，下面两行是来自RX1的，下面两行是来自RX2的。

参考可视化数据集样本，可以把现有技术和使用技术对图像的作用分布展示

我们还可视化了绝对距离多普勒图(Eq. 3)和干涉距离多普勒图，沿着滑动方向(Eq. 4)，使用图11中相同的手势样本，以获得对信号(图1)的一些见解。在这些图中，X轴对应于指向传感器的速度。速度在中心为零，左边为负，右边为正。Y轴表示距离(即到传感器的距离)。这个范围在底部最小，在顶部最大。速度分辨率和距离分辨率分别为0.31 m/s和0.033 m，如式1和式2所示。在图1的顶部，我们看到一个峰值(即用户的手)，从第一帧到第六帧接近传感器，然后离开。此外，在干涉图中，我们看到与距离多普勒峰值对应的单元格的颜色从红到绿再到蓝，这表明当用户执行左滑动作时，手的角度发生了变化。图12还显示了阳性样本。顶部是一个干净的右滑动，说明绝对距离多普勒地图中的模式与左滑动样本中的模式非常相似，而干涉地图颜色的变化顺序相反。这些向左和向右滑动的样本具有清晰的动作特征;然而，许多实际的阳性样本显示不太理想的模式。中间的行对应于一个小的左滑动与绝对距离多普勒和干涉图的细微变化。底部显示用户身体靠近手机时向左滑动，使干涉测量图中的运动模式不清楚。

图12：清晰的右滑动(上)、小的左滑动(中)和用户身体靠近手机的左滑动(下)的正面可视化示例。我们的许多阳性样本与中间或底部的样本相似，数据中没有干净的模式，这使得分类具有挑战性。

图13显示了与滑动运动模式类似的负样例。上下移动一只手(上)会在绝对距离多普勒图中产生类似的模式，因为手接近传感器，然后移开。然而，由于手的角度变化不大，与距离多普勒峰值相对应的干涉图盒的颜色没有变化，尽管干涉图中的噪声使得很难将这种运动与小振幅的滑动区分开来。触屏滑动(中间)，拿起一个物体手机附近(底部)也有类似于空中滑动运动的模式。

图13：手部上下移动(上)，触屏滑动(中)，拿起手机附近的物体(下)。包括这些例子在内的许多动作都创造了与滑动类似的模式。

这些因素，包括但不限于不清楚的手势模式，正样本和负样本之间的相似性，以及干涉图中的低信噪比，使得算法对滑动动作的鲁棒识别具有挑战性。

8、评估

我们用训练集训练RadarNet。所有训练均为1.5 × 106步，批次大小为128步。使用我们的服务器，每次培训大约需要5到6个小时。我们在分段分类任务和非分段识别任务中评估了算法的性能。在分段分类任务中，模型需要对分段数据进行分类，而在非分段识别任务中，模型需要对非分段时间序列数据中的手势进行识别。由于不知道手势在时间序列数据中的位置，因此不分段的识别任务更加困难。然而，在实际应用中，模型必须处理未分割的时间序列数据;因此，非分段识别任务比分段分类任务给出了更生态有效的性能估计。此外，在分段分类任务中，我们的数据集包含具有挑战性的非手势样本，其雷达信号模式与手势类似，而在现有的工作中(例如，[7,23,35])，数据集中的样本总是代表一个手势，其运动模式与数据集中的其他手势不同。包含具有挑战性的非手势样本使我们的分段分类任务更具生态有效性和难度。接下来，我们分别用分段分类任务和非分段识别任务对所提算法进行评估。

8.1、分段分类任务

我们使用预先分割成样本的测试集，每个样本包含12帧复杂距离多普勒地图。每个样品有三个标签:纵向滑动标签，横向滑动标签和全擦拭标签。分段分类任务是对一个模型预测三个预测(表1)中的每一个类别，以匹配附加在样本上的地面真理标签，给定12帧雷达信号。表3显示了在查全率和查准率相等的点上每个预测的准确性。预测精度均大于0.99。图14显示了每个预测的精度-召回率曲线。对每个预测的精度和查全率进行平均，剔除背景。性能曲线靠近右上角。这些结果表明
RadarNet在分段分类任务中提供了强大的分类性能。

表3：所有分类的准确率均在0.99以上，表明RadarNet在分段分类任务中取得了较好的性能。

图14：portrait预测、landscape预测和omni预测的精度-召回曲线表明，RadarNet在分段分类任务中具有稳健的性能。

8.2、计算效率

我们根据模型的大小和推理时间来评估RadarNet的效率。模型大小影响运行模型需要多少内存。推理时间影响处理器运行模型所需的计算能力，以及计算的功耗。因此，这些指标对于评估模型的效率是非常重要的。我们使用两个模型作为基线:中提出的端到端模型[35]作为60 GHz雷达信号的手势识别模型MobileNet[19]是专门为移动设备设计的模型。

我们使用TensorFlow Lite[10]性能分析器评估推理时间。我们将所有使用的模型转换为TFLite模型，并通过计算平均推理次数超过5000次来测量Pixel 4 XL上的推理时间。如表4所示，RadarNet的效率明显高于其他模型。模型大小和推理时间分别为2.0 × 10−4和[35]比模型大小和推理时间小1.1 × 10−6。虽然[35]中的模型识别了11个手势，而我们的模型识别了5个手势，但这些效率差异是显著的。正如模型结构部分所描述的，RadarNet缓存了来自其框架模型的输出以减少计算量。端到端模型没有采用类似的缓存技术，尽管它在技术上是可行的。因此，作为另一个参考点，我们评估了没有缓存的RadarNet的推理时间。删除缓存将RadarNet的推理时间增加到0.909毫秒。但是，它仍然明显小于[35]中的端到端模型。

表4：在模型大小和推理时间方面的计算效率比较。RadarNet的效率明显高于其他模型。

模型大小的测试方法与推理时间的测量手段

8.3、不分段识别任务

我们还用未分割的识别任务来评估我们的算法。在该任务中，算法的输入是雷达信号时间序列，而不是分段分类任务中预先分割的样本。我们在测试集中使用没有分割的录音。

我们使用正数据收集的记录来计算准确性。这些录音在数据收集过程中附有标签，标明参与者做手势的时间窗口。如果算法在时间窗口中输出一个且只有一个正确的预测，我们就标记该时间窗口是正确的。如果没有预测、一个错误的预测或多个正确的预测，我们就会将时间窗口标记为错误的。然后，用正确时间窗口数除以总时间窗口数计算未分割检测率。录音中有1.04 × 105个手势时间窗口。

我们使用来自负类数据收集的测试集中的记录子集来计算每小时的假阳性。正如负类数据收集部分所描述的，我们收集了两种类型的负类数据:1)围绕手机的自然行为，包括类似于滑动的手部动作(例如，将手机放在桌上擦桌子)和2)类似于滑动手势的重复性手部动作(例如，将物体从手机的一侧移动到另一侧)。在此分析中，我们使用第一种类型来评估系统在实际场景中的性能。第二种类型的数据将在下一节中使用，我们将在其中评估系统对对抗数据集的鲁棒性。请注意，我们使用可能导致误报的行为记录来执行此评估。因此，本节中每小时报告的误报数接近上限，而不是期望值。我们使用每小时的假阳性作为指标，因为在阴性记录中没有明确的手势类动作的数量定义。录音总时长为40.2小时。

每小时的检出率和误报率是手势脱扣器中使用的阈值的函数。图15显示了纵向、横向和全域预测的检出率和每小时误报率的图表。当未分割检出率为0.8时，每小时对portrait、landscape和omni预测的假阳性分别为0.03、0.0和分别为0.06。这些结果表明，我们的算法的假阳性率足够小，使系统始终处于打开状态，最大限度地减少了在实际环境中使用基于手势的交互的摩擦。

图15：以手机周围自然行为的记录为负数据，当未分割检出率为0.8时，画像、景观和全域预测的每小时误报率分别为0.03、0.0和0.06。这些数字表明，在实际环境中，该系统是足够健壮的，可以一直开机。

8.4、对抗数据的鲁棒性

针对一个试图破坏我们系统的敌对数据集，我们进一步评估了我们的系统。对抗数据来自于类似于滑动手势的重复性手部动作的负面记录。例如，数据集包括人们从手机一侧移动物体到另一侧的记录，触摸屏幕，做屏幕向上滑动的手势(即Android手机解锁的手势)，以及在附近放置手机支架时转动汽车方向盘的记录。图16显示了纵向、横向和全域预测的每小时检出率和误报率的曲线图。当未分割检出率为0.8时，portrait、landscape和omni预测的每小时误报率分别为0.5、0.5和1.0。由于这些录音是由人们每隔几秒钟重复做这些任务组成的，所以这些录音每小时包含数百个动作。考虑到这一点，假阳性的数量非常少。在实践中，用户不太可能连续几个小时重复这些动作。因此，我们认为，结果表明我们的系统对类似于滑动手势的动作也很健壮。

图16:通过类似于滑动手势的重复手部动作的记录，当未分割检出率为0.8时，portrait、landscape和omni预测的每小时误报率分别为0.5、0.5和1.0。考虑到在这些录音中每隔几秒就会重复出现类似滑动的动作，误报的数量很少。

8.5、性能和数据集大小

当我们开发一种基于机器学习的手势识别技术时，最大的问题之一是我们应该收集多少手势样本。在这项工作中，我们收集了超过5.0 × 105个手势样本，这让我们有机会在规模上评估训练样本数量与模型性能之间的关系，这在我们的社区中是以前没有报道过的。

为了研究用于生成训练集的手势记录数量的影响，我们使用不同数量的手势记录生成多个数据集，并评估性能的变化。每个训练集由0.7 × 103 ~ 368 × 103个手势记录生成。我们从每个手势记录中提取三个阳性样本，并将它们增加三倍，如训练、开发和测试集部分所述。阴性样本随机抽样，保持阳性和阴性样本的比例为1:6。我们使用数据集训练RadarNet，并计算每小时肖像预测和误报的平均准确性(图17)。图表显示，与自然数据集相比，数据大小的增加为对抗数据集提供了更大的性能改进，这表明我们需要更多的样本来区分更难的样本。另一个有趣的观察是，3.7 × 103手势记录训练的模型可以达到3.68 × 105训练模型的90%以上的性能。这意味着我们可以用更小的数据集来评估深度学习手势识别技术的性能。

图17:画像预测的每小时检测率-假阳性图随着用于生成训练集的阳性记录数量的变化而变化。有趣的是，在1%的总阳性样本(即3.7 × 103样本)下，该模型获得了用所有阳性样本(即3.68 × 105样本)训练的模型所获得的90%的准确性。

可以参考性能和数据集大小进行实验设计

9、使用案例

本文介绍的滑动检测技术为为移动设备设计新颖的交互提供了机会，允许用户快速管理中断，加速常见任务，并在基于触摸的交互不方便或不可用时管理多任务。

如果用户不能立即处理电话、警报和通知，通常会造成挫败感。在移动设备上,我们依靠UI元素和触摸交互来管理这些中断。然而，这种方式需要良好的手眼协调，这在需要立即行动的情况下通常是不可取的;例如，当开车、参加会议或早上醒来的时候。滑动手势通过一个简单的不需要眼睛的动作来处理打断，消除了这种摩擦(图18和19)。

滑动手势还可以用来加速常见和频繁的任务，比如听音乐时跳过曲目。目前，使用手机，用户可能需要解锁设备，找到音乐控件，然后按下跳过按钮。无论设备状态如何，始终开机的手势识别可用于通过单个动作执行预定义的功能。这允许用户通过向左或向右滑动来移动到下一首或上一首歌曲，而不管手机是锁定的还是音乐应用程序在后台(图20)。

在某些情况下，触摸设备屏幕是不方便的或不可取的。例如，当我们在做饭的时候，我们可能想在手很脏的时候按照手机上的食谱做菜。识别非接触式滑动手势可以让用户快速从阅读屏幕上的菜谱的下一步到执行厨房柜台上的指示，而无需在两者之间清洗双手。

由于其占地面积小，计算需求低，功耗低，以及隐私保护能力（但整篇论文读下来什么技术进行隐私保护呢？），Soli传感器是独特的定位，适合环境计算应用的严格技术要求。由Soli提供支持的滑动手势识别技术可用于各种环境计算产品，支持类似于用于移动设备的用例。例如，用户可以通过滑动手势来管理闹钟、计时器或烟雾探测器的中断。用户还可以加速与声控扬声器的交互;无需使用热词来唤醒设备，用户可以在不需要语音输入的情况下快速切换音轨(例如，当与某人交谈或音乐太吵时)。在汽车中，当用户从事驾驶等认知要求较高的任务时，一个不需要用眼睛的滑动手势可以用来管理与上下文相关的信息，比如接受或拒绝建议的GPS路线的改变。在公共场合，我们可以想象控制自动门、电梯或水龙头，而不接触共享的表面，因为卫生的原因。

10、局限性

本文提出了一种基于雷达信号的手势识别技术。我们的技术目前只能识别5种手势。虽然我们相信，如果有必要，它可以识别更多的手势，但还需要进一步的研究来证实这一点。

另一个限制可能是我们数据集的生态有效性。虽然我们收集了大量的手势数据，但所有的参与者都是在我们的组织内部招募的。因此，数据集反映了人群中潜在的偏见。例如，该算法可能不适用于老年人或有运动障碍的人，这可能会限制该技术在可达性领域的应用。

在我们的评估中，我们研究了数据集的大小如何影响模型的性能。虽然我们相信这一分析为我们的社区提供了一个有用的数据点，但性能关系也受到其他因素的影响，如感知模式、手势动作的复杂性和手势集合。

11、结论和未来方向

我们介绍了一种新的滑动手势识别技术，它满足了环境计算上下文中手势交互的五个要求。提出的技术识别滑动使用隐私保护雷达信号。我们的雷达传感芯片具有6.2 x 5.0 mm的非常小的物理占地面积，可以放置在外壳后面，使其可以集成到具有严格的形状因素限制的设备中，而不影响其美观。我们的实验结果表明，我们的机器学习模型RadarNet足够高效，可以在计算资源有限的设备上连续执行，同时也为实际任务提供可靠的手势识别性能。这些结果表明，基于雷达的手势输入是与环境计算系统交互的一个有前途的候选人。它为研究具有不同功能、形状因素和严格技术限制的设备的手势交互提供了机会。

尽管这项工作的重点是识别分类手势，但鉴于Soli对动作的敏感性，从手势中提取更细微的信息是可能的。作为我们非语言交流技能的一部分，手势通过速度、振幅和节奏等特性来表达情感和微妙的含义。如果设备能够识别这些属性，它们就能以一种比简单的命令和响应交互更丰富的方式调整自己的行为。举个简单的例子，一个闹钟可以根据用户滑动的幅度来改变闹铃的休眠时间。

此外，我们可以超越检测显性手势。在基于手势的交互中，用户明确地执行手势作为直接命令来控制产品或系统的行为;然而，检测和理解用户隐含的身体暗示也可能是有趣的。如果一个系统能够识别用户无意识地在设备周围做出的隐式身体暗示，系统甚至可以在用户开始交互之前做出反应，预测用户的意图。例如，当用户开始与手机互动时，他们会自然地接触到设备。触摸是一种动作提示，表明用户开始与设备交互的意图。我们可以利用这个线索主动适应系统的行为;例如，当闹钟响起时，我们可以在用户拿起设备时逐步减小它的音量。其他的例子提示包括但不限于倾向、转向和接近设备。如果设备能够通过理解隐含的身体暗示来预测用户的意图，我们就可以使人与设备的交互更加自然和流畅。

微雷达射频传感是一种新的、令人兴奋的传感方法，具有独特的特性，如隐私保护、低功耗、抗光鲁棒性、对运动的高灵敏度和通过材料工作。雷达现在已广泛用于HCI社区(例如XENSIV[20]);然而，使用它们仍然非常具有挑战性，雷达上的人机交互工作相对较少。我们相信，我们的工作展示了如何使用雷达来设计基本交互，通过提供基于机器学习的手势识别系统设计的核心原则，揭开射频/雷达感知的神秘面纱，并提出了一个高效的深度神经网络架构，可以作为我们社区的起点。我们相信这些贡献将激励研究人员探索这一新兴技术

更多推荐

RadarNet: Efficient Gesture Recognition Technique Utilizing a Miniaturized Radar

本文发布于:2023-04-21 20:38:00，感谢您对本站的认可！

本文链接:https://www.elefans.com/category/jswz/678ac9f45f3415258f8b84b366e6f244.html

上一篇： win7-win7电脑无线网变身WiFi热点
下一篇：返回列表

发布评论取消回复

评论列表（有 0 条评论）

RadarNet: Efficient Gesture Recognition Technique Utilizing a Miniaturized Radar Sensor

摘要：

语句框架：

1、介绍：

2、相关工作：

3、雷达原理

4、手势定义

5、radarnet算法

5.1 radarnet 输入

5.2 radarnet输出

5.3radarnet算法

5.4 手势防反跳

6、硬件

7、数据集

7.1正例数据集

7.2 负例数据集

7.3 训练、开发和测试集

7.4 采样

8、评估

8.1、分段分类任务

8.2、计算效率

8.3、不分段识别任务

8.4、对抗数据的鲁棒性

8.5、性能和数据集大小

9、使用案例

10、局限性

11、结论和未来方向

发布评论取消回复

最近发表

热门文章

标签列表

RadarNet: Efficient Gesture Recognition Technique Utilizing a Miniaturized Radar Sensor

摘要：

语句框架：

1、介绍：

2、相关工作：

3、雷达原理

4、手势定义

5、radarnet算法

5.1 radarnet 输入

5.2 radarnet输出

5.3radarnet算法

5.4 手势防反跳

6、硬件

7、数据集

7.1正例数据集

7.2 负例数据集

7.3 训练、开发和测试集

7.4 采样

8、评估

8.1、 分段分类任务

8.2、计算效率

8.3、不分段识别任务

8.4、对抗数据的鲁棒性

8.5、性能和数据集大小

9、使用案例

10、局限性

11、结论和未来方向

相关文章

发布评论取消回复

最近发表

热门文章

标签列表

8.1、分段分类任务