论文阅读之 High-level Semantic Feature Detection: A New Perspective for Pedestrian Detection|电子爱好者

admin管理员组
文章数量:1564672

本篇论文是发表在 CVPR_2019 上的一篇工作，提出了一个关于行人检测的新思路。

论文链接：https://openaccess.thecvf/content_CVPR_2019/papers/Liu_High-Level_Semantic_Feature_Detection_A_New_Perspective_for_Pedestrian_Detection_CVPR_2019_paper.pdf
代码链接：https://github/liuwei16/CSP

1. 动机

现有的目标检测算法大多是基于滑动窗口或者锚框（Anchor）的检测算法，这些方法都需要进行繁琐的设置，滑窗和锚框都需要精心的设计。文章提出一种新的视角：将目标检测看作高级语义特征检测任务。通过卷积操作将行人检测简化为行人中心和尺度预测任务。

2. 主要工作

2.1 模型结构

行人检测被简单地表述为一个简单的中心和尺度预测卷积，提出了基于中心和尺度预测 (CSP) 的检测模型。

特征提取
较浅的特征图可以提供更精确的定位信息，而较粗的特征图随着感受野大小的增加包含更多的语义信息。因此，用一种简单的方式将这些来自每个阶段的多尺度特征图融合为一个单一的特征图，即采用反卷积层使多尺度特征图具有相同分辨率，然后再进行连接。由于每个阶段的特征图具有不同的尺度，我们使用 L2 归一化将它们的范数重新缩放到 10。

**注：**反卷积(Transposed Convolution)也被称为转置卷积。通常被用来扩大图像尺寸，实现图像由小分辨率到大分辨率的映射的操作。反卷积的相关知识可以参考一篇知乎博文反卷积(Transposed Convolution)详细推导。

检测头
首先在 Φdet 上附加一个 3x3 Conv 层以减少其通道尺寸为 256，然后是两个同级 1x1 Conv层分别生成中心热图和比例图。

2.2 损失函数

Ground Truth

对于中心 ground truth，所有对象中心点的位置都被指定为正，否则为负。

对于尺度 ground truth，第k个正位置被分配与第k个目标对应的log(hk)值。为了减少歧义，log(hk) 也被分配给以正样本为中心半径为 2 内的负样本，而所有其他位置都被分配为零。行人边界框比例为 0.41，因此只预测行人高度，然后通过比例预测边界框。

中心和尺度 Ground Truth 如图 b 所示：

中心点预测分支（分类损失）

将行人中心点预测看作是一个分类问题，通过交叉熵损失（cross-entropy loss）进行计算。

由于行人中心点很难界定，因此高斯掩膜 2D Gaussian mask G(.) 来减少正样本附近负样本的模棱两可（将中心点周围的一些负样本也看作是正样本）。

在一张图片中有 K 个目标，(xk, yk, wk, hk) 是第 K 个目标的中心点 x,y 坐标，宽度和高度
高斯掩膜的方差 (σkw, σkh) 和目标的高度和宽度成正比。如果掩膜间有重叠，选择重叠位置的最大值。

高斯掩膜如下图所示：

为了平衡正负样本，在难样本上使用 focal loss。最终的分类损失计算如下：
pij ∈ [0, 1] 指网络预测位置 (i , j) 是目标中心的可能性，yij ∈ {0, 1} 是 ground truth label，yij 为 1 代表正样本位置
αij 和 γ 是 focusing 的超参数，αij 根据高斯掩膜（Gaussian mask） M 来计算，用于减少正负样本间的模棱两可，β 用来控制总损失中的正负样本损失的惩罚项大小。

尺度预测分支（回归损失）
将尺度预测看作是一个回归任务，通过 smooth L1 loss 进行计算。
sk 指网络的预测输出， tk 指正样本的 ground truth
总的损失

3. 实验

实验一：为什么使用中心点

实验二：尺度预测有多重要
实验三：特征层下采样的分辨率
实验四：特征融合的卷积层选择
实验五：在 Caltech 数据集上使用新标注，和 SOTA 算法的对比
实验六：在 CityPersons 数据集上和 SOTA 算法的对比

相关链接

论文 CenterNet 和 CSP 有很多相似的观点，它们都受到了 CornerNet 网络的影响，感兴趣的小伙伴可以了解下CenterNet算法。下面给出了一篇写得很详细的解读 CenterNet 的文章链接。

CenterNet算法详解
反卷积(Transposed Convolution)详细推导

本文标签：论文 Level High Semantic Pedestrian

版权声明：本文标题：论文阅读之 High-level Semantic Feature Detection: A New Perspective for Pedestrian Detection 内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://www.elefans.com/xitong/1725894828a1047508.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

论文阅读 之 High-level Semantic Feature Detection: A New Perspective for Pedestrian Detection

1. 动机

2. 主要工作

2.1 模型结构

2.2 损失函数

3. 实验

相关链接

更多相关文章

共识算法论文——Paxos Made Simple

论文翻译 | Chain-of-Thought Prompting Elicits Reasoningin Large Language Models 思维链提示在大型语言模型中引出推理

Beyond Chain-of-Thought: A Survey of Chain-of-X Paradigms for LLMs论文阅读笔记（未完待续）

（论文阅读）Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

论文阅读：chain of thought Prompting elicits reasoning in large language models

Chain of Thought (CoT) 系列论文：大模型思维链，提升 LLM 的推理能力

ICDE‘22推荐系统论文梳理之Industry篇

ddrelease64 黑苹果_High Sierra 黑苹果构建 微星X99A GAMING PRO CARBON+i7 6800k+GTX1070

程序开发类本科论文结构【2024年修改】

计算机基本维护技能论文,大学生应具备基本计算机基本维护技能的论文

基于java的课程设计管理系统设计论文

【微生物研究】微生物交互关系研究论文摘要集锦

Introduction:论文引言句式积累

2021年12月90篇GAN对抗论文汇总

如何下载论文全文

基于java实现Android移动应用商店设计与实现演示【附项目源码+论文说明】

【图像超分】论文精读：CoSeR: Bridging Image and Language for Cognitive Super-Resolution（CoSeR）

论文笔记与源码阅读：《Cognitive Graph for Multi-Hop Reading Comprehension at Scale》

How to Conduct High-Impact Research and Produce High-Quality Papers

论文常用词

发表评论

推荐文章

安全网厂_工信部曝光29款不良APP 360手机卫士保护手机安全_详细攻防笔记

怎样开发鸿蒙系统的输入法,2020华为开发者大会 讯飞输入法携手鸿蒙共创未来...

Hack Attacks Testing: How to Conduct Your Own Security Audit

android 盒子 红白机 模拟器,安卓FC模拟器

百度输入法 v3.25 for android,【图片】【3.25皮肤更新】LeoStyleHD布局全键盘双键中英9键双拼23键【百度手机输入法吧】_百度贴吧...

热门文章

一文弄懂Linux虚拟机网络配置

android应用的关闭自动更新,软件自动更新怎么关闭 安卓关闭软件自动更新

ubuntu18输入密码正确，但一直在登录界面循环进不去

手机浏览器不能显示轮播图

js判断浏览器是电脑，iPad还是手机

win10：Anaconda+vscode配置python环境

从U盘引导并安装Ubuntu server 16.04.3 的方法

如何查找云桌面服务器,云电脑服务器怎么查看ip

云主机和物理机的区别

【软件问题】解决企业微信启动报错：0x0000142无法打开

最新文章

kali安装输入法

kail linux--安装中文输入法

centos7中文输入法

软件发明专利实例_上知案例洞察：搜狗诉百度输入法软件发明专利侵权纠纷案...

Ubuntu设置中文输入法教程（全）

UBUNTU输入法安装后乱码

rk android10.1 默认输入法 百度tv输入法

Centos7安装输入法

deepin 20.9中文输入法问题

为什么php-fpm会使用内存一直增加_百度输入法重大BUG：内存占用随用户词库增大而暴涨...

android 外接键盘 五笔 百度输入法

用百度输入法的用户体验

android 百度轻量输入法,百度发布Android手机输入法 打造流畅体验

MIUI 13 去除输入法广告

Jmeter与搜狗输入法、百度输入法不兼容问题解决方法

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

论文阅读之 High-level Semantic Feature Detection: A New Perspective for Pedestrian Detection

ddrelease64 黑苹果_High Sierra 黑苹果构建微星X99A GAMING PRO CARBON+i7 6800k+GTX1070

怎样开发鸿蒙系统的输入法,2020华为开发者大会讯飞输入法携手鸿蒙共创未来...

android 盒子红白机模拟器,安卓FC模拟器

android应用的关闭自动更新,软件自动更新怎么关闭安卓关闭软件自动更新

rk android10.1 默认输入法百度tv输入法

android 外接键盘五笔百度输入法

android 百度轻量输入法,百度发布Android手机输入法打造流畅体验

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载