视觉2D感知（一）：目标检测介绍以及自动驾驶场景应用

编程入门行业动态更新时间:2024-10-27 18:33:44

视觉2D感知（一）：目标检测介绍以及自动驾驶<a href=https://www.elefans.com/category/jswz/34/1770727.html style= 场景应用"/>

视觉2D感知（一）：目标检测介绍以及自动驾驶场景应用

R-CNN——两阶段，包含Anchor，运行速度较慢

YOLO——单阶段，包含Anchor，运行速度较快

CenterNet——单阶段，关键点表示物体，运行速度较快，超参数较少

Transformer——单阶段，自注意力提取体征，无法达到实时

1.传统物体检测

候选窗口

滑动窗口（稠密）

显著性图（稀疏）

特征提取

haar特征

HOG特征

分类器

AdaBoost

Decision Tree

SVM

问题：针对不同任务，需要手工设计不同的特征，选择不同的分类器

2.自动驾驶感知中应用

场景/光照/天气变化较大

目标种类/形状相对固定，但尺度变化较大

目标在图像中所占比例较小

算法实时性要求较高

1.早期（2013-2014）：传统方法+深度学习

候选边框：HOG/Haar+AdaBoost
边框分类和修正：CNN
可以在比较低算力的嵌入式硬件上实现

2.中期（2014-2015）：完全深度学习

端对端的物体检测：Fast R-CNN
速度上进行优化：限制输入图像的大小；限制最大的目标个数；优化金字塔的结构；

3.R-CNN算法

R-CNN算法（Region-CNN），第一个成功将深度学习应用到目标检测上的算法

1.R-CNN

选择性搜索替代滑动窗口
卷积神经网络提取图像特征
窗口特征采用SVM进行分类

问题：窗口数目重叠太多，导致特征提取的冗余，影响算法的运行效率（20s）

2.Fast R-CNN

CNN提取全图的特征，避免冗余计算
在候选框中进行ROI Pooling
全连接网络进行分类和边框回归

问题：通过选择性搜索来得到候选区域，这个过程依然比较慢

3.Faster R-CNN

区域候选网络（RPN）在特诊图的基础上生成候选框
其余步骤与Fast R-CNN类似
Anchor概念的引入：回归任务只用处理比较小的变化
第一个端到端的物体检测网络，接近实时（17FPS）

问题：ROI Pooling比较耗时，Anchor的设计需要先验知识

4.Feature Pyramid Network（FPN）

特征提取阶段进行优化
金字塔结构提取多尺度信息
适应不同大小的物体

4.SSD/YOLO(两阶段 - 单阶段)

1.Single Shot MultiBox Detector（SSD）

全卷积网络：在所有位置进行分类和回归
多分辨率特征图适应不同大小的物体

问题：稠密采样导致正负样本的不平衡，大量负样本会支配损失函数

改进：RetinaNet中的Focal Loss可以更多地关注困难样本

2.You Only Look Once（YOLO）

V1:卷积全连接提取特征＋全连接层输出物体类别和边框
V2-V4：增强特征提取网络，采用多尺度特征图，利用Anchor来辅助边框回归

问题：Anchor需要手工设计，Anchor数目较大影响算法速度

5.Keypoint（Anchor-based 到 Anchor-free）

1.CenterNet

backbone网络结构与R-CNN/YOLO类似
不同之处在于head的设计：物体表示中心点，直接回归边框

中心点分类：正负样本的生成

与ROI Pooling的区别：只采用中心点处的特征
与Anchor的区别：直接估计边框参数

问题：中心点处的特征表示性不够

2.FCOS（Fully Convolutional One-Stage Object Dection）

在多分辨率的特征图上进行预测

在中心点周边选取多个正样本

增加了一个Centerness预测分支

2.CornerNet

Corner Pooling提取特征，预测角点
匹配属于同一物体的角点

3.RepPoints

物体表示为代表性点集
可变性卷积适应物体形状变化
点集转换为物体框，计算Loss

6.CenterNet检测结果分析（KITTI数据集）

1.漏检：中心被遮挡

可能的解决方案：

增加角点检测来提高对遮挡物体的鲁棒性，比如CornerNet
采用语义分割将其检测为一般性的障碍物

2.误捡：物体处于图像边缘，只有部分可见

可能的解决方案：

根据多帧的结果进行过滤（物体跟踪）
采用双目系统，通过增加信息冗余来过滤

3.漏检：物体距离较远，图像上的尺寸较小

可能的解决方案：

增加特征图的分辨率，或者多尺度特征图，比如FPN
考虑不同大小的检测框可能出现的区域，并相应调整置信度的阈值

4.漏检：多个目标聚集

可能的解决方案：

定义新的目标类别，比如"一组行人"
采用语义分割而不是物体检测

5.漏检和误检：数据集中比较少见的目标

可能的解决方案：

挖掘“困难数据”，采用类似Boostrap的方式，重新训练模型
收集“失败场景”，有针对性的采集类似的数据，迭代模型

7.不同系列物体检测方法对比（KITTI & Waymo）

算法	阶段	Anchor	KITTI Car AP	Waymo mAP	运行速度fps
Faster R-CNN +FPN	两	有	86.1%	62.4%	7
YOLOv4	单	有	90.1%	66.8%	31
CenterNet	单	无	86.7%	64.8%	28

NN +FPN | 两 | 有 | 86.1% | 62.4% | 7 |
| YOLOv4 | 单 | 有 | 90.1% | 66.8% | 31 |
| CenterNet | 单 | 无 | 86.7% | 64.8% | 28 |

更多推荐

视觉2D感知（一）：目标检测介绍以及自动驾驶场景应用

本文发布于:2024-02-11 14:01:16，感谢您对本站的认可！

本文链接:https://www.elefans.com/category/jswz/34/1681350.html

场景视觉目标

发布评论取消回复

评论列表（有 0 条评论）

视觉2D感知（一）：目标检测介绍以及自动驾驶场景应用