StrongSORT论文阅读笔记

编程入门行业动态更新时间:2024-10-09 09:12:41

StrongSORT论文阅读<a href=https://www.elefans.com/category/jswz/34/1770047.html style= 笔记"/>

StrongSORT论文阅读笔记

写在前面：这篇论文是2022.02.28放在arxiv上的，是对DeepSORT的改进，其中用到了许多现有的网络的tricks，正好目前我在做目标跟踪方面的工作，感觉可以抄抄作业啦(美滋滋)。以下内容是我根据论文做的翻译，希望可以帮助到大家，有不足的地方也希望大家多多包涵。

论文地址：论文阅读(BETA)-专业的学术讨论社区-粤港澳大湾区数字经济研究院（福田）

github：

摘要：

现有的多目标检测方法可以大致分为tracking-by-detection和joint-detection-association两种范式。尽管后者受到了更多的关注并且表现出与前者相近的性能，就跟踪精度而言，我们仍然认为tracking-by-detection范式是更优的解决方案。在这篇文章中，作者回顾了经典的跟踪器DeepSort，并从检测、嵌入和关联等多个方面对其进行了升级。由此产生的跟踪器叫StrongSORT，在MOT17和MOT20两个任务上取得了新的HOTA和IDF1记录。作者还提出了两种轻量级的、即插即用的算法来进一步完善跟踪结果。首先，提出了一种与外观无关的连接模型(AFLink)来将短的轨迹关联成完整的轨迹。就作者目前所知，这是第一个没有用到外观信息的全局连接模型。其次，作者提出了高斯平滑插值法(GSI)来填补漏检。GSI不像线性插值法一样忽略运动信息，而是基于高斯过程回归算法，可以实现更加精确的定位。此外，AFLink和GSI基于可以在没有额外计算的情况下插入其他的跟踪器。通过结合AFLink和GSI，最终集成出来的跟踪器StrongSORT++在MOT17和MOT20上HOTA和IDF1两项指标上均排名第一，且超越第二名1.3~2.2。

1 导入

多目标跟踪(MOT)在视频理解中起着至关重要的作用。它旨在逐帧检测和跟踪所有特定类别的对象。在过去的几年里，tracking-by-detection范式[3,4,36,62,69]主导了多目标跟踪的任务。它对每一帧进行检测并且将MOT转换为一个数据关联任务。受益于高性能的目标检测模型，tracking-by-detection方法由于它们出色的表现而受到青睐。然而，SDE系列(tracking-by-detection)算法需要多个计算昂贵的组件：比如一个检测器和一个embedding模型。而特征共享系列算法[1,60,74]通过联合检测和嵌入模型训练，获得了更好的跟踪性能。

联合检测器的成功促进了研究人员设计各种组件统一的跟踪网络框架，如运动，检测，嵌入和关联等[30, 32, 38, 57, 59, 65, 68]。然而，作者认为这些联合框架中存在两个问题：(1)不同组件之间的竞争和(2)用于联合训练这些组件的数据有限。尽管已经有一些方法被提出来解决上述两个问题，这些问题的存在还是降低了跟踪准确率的下限。相反，SDE系列的跟踪器似乎被低估了。

本文作者回顾了经典的独立跟踪器deepsort[62],它是最早

更多推荐

StrongSORT论文阅读笔记

本文发布于:2024-02-28 04:27:08，感谢您对本站的认可！

本文链接:https://www.elefans.com/category/jswz/34/1767950.html