(论文阅读14/100)End

编程入门 行业动态 更新时间:2024-10-28 18:25:13

(<a href=https://www.elefans.com/category/jswz/34/1770125.html style=论文阅读14/100)End"/>

(论文阅读14/100)End

文献阅读笔记

简介

题目

End-to-end people detection in crowded scenes

作者

Russell Stewart, Mykhaylo Andriluka

原文链接

.04878.pdf

关键词

Null

研究问题

当前的人员检测器要么以滑动窗口的方式扫描图像,要么对一组离散的提议进行分类。

这项任务是具有挑战性的,因为它既需要将物体从背景中区分开来,又需要正确估计不同物体的数量和它们的位置。

要避免对同一对象的多次检测。

对象实例重叠时根据边界框的属性进行推理往往会得出错误的结果。

拥挤场景中,多个人常常近距离出现,使得区分附近的个体变得尤为困难。

研究方法

提出了一种基于图像解码的人员检测模型。要求以一幅图像作为输入,从而能够直接输出一组不同的检测假设。由于是联合生成预测,因此不需要非极大值抑制等常见的后处理步骤。

本文贡献一个使用一个新的损失函数来端到端地训练模型,该损失函数对检测集进行操作。

另一个技术贡献是表明可以成功地利用LSTM单元链将图像内容解码为可变长度的相干实值输出。

图像解码:首先使用来自谷歌公司的表达性图像特征。然后使用该图像的中间表示使用lstm进行训练得到一组预测对象。

研究结论

该方法在拥挤场景中检测人群这一具有挑战性的任务上非常有效。能够生成任意距离的预测。

额外知识

Bounding box regression:Region Proposal经过fine-tuning跟Ground Truth更加接近的方法

人脸检测中的bounding box regression详解-CSDN博客

更多推荐

(论文阅读14/100)End

本文发布于:2023-11-16 23:49:05,感谢您对本站的认可!
本文链接:https://www.elefans.com/category/jswz/34/1635432.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文标签:论文

发布评论

评论列表 (有 0 条评论)
草根站长

>www.elefans.com

编程频道|电子爱好者 - 技术资讯及电子产品介绍!