admin管理员组

文章数量:1597416

一:论文简介

yolov4:Optimal Speed and Accuracy of Object Detection

2020 CVPR

网络结构:Backbone:CSPDarknet53

                  neck:SPP、PAN

                  Head:YOLOv3

优化策略:Eliminate grid sensitivity、Mosaic data augmentation、IoU threshold(match posotive samples)、Optimizered Anchors、CIOU

二:CSPDarknet53

了解CSP:AI论文精读之CSPNet—— 一种加强CNN模型学习能力的主干网络

 CSP的优点:提高CNN的学习能力、移除计算瓶颈、减少内存开销

CSPNet结构是在通道方向上进行均分

 

 在yolov4中,先经过下采样,然后经过两个1*1的卷积层,卷积核的个数都是输入特征层的一半

 

 CSPDarknet53的具体结构和YOLOv4整体的网络结构:YOLOv4网络详解

二:SPP

这里步距为1,通过padding,输入特征图大小和输出特征图高度、宽度和channel是一样的。通过SPP结构,能够在一定程度上解决多尺度问题

 三:PAN

网络的backbone主要用于特征提取,在提取的特征层上构建特征金字(FPN),就是将高层的语义信息往低层进行融合,而b是将低层语义信息向高层进行融合,这两部分融合在一起,就是PAN。在原来的PAN中,特征层融合是采用相加的策略,但是在YOLOv4中,是采用特征层在深度方向上进行拼接的策略

 PANet(路径聚合网络)

四:优化策略

1.Eliminate grid sensitivity 

如果gt box的中心点落在grid cell边界处,比如bx=cx,sigmoid(tx)=0,只有x趋近于无穷时才能等于0,所以引入了scale,对函数进行缩放和平移得到新的函数,则解决了gt box的中心点落在grid cell边界处的问题。

 

 比较主流的代码中,scale=2

 图像:蓝色是sigmoid,黄色是对其进行放大2倍,绿色是对黄色在进行向下平移

 2.Mosaic data augmentation

将四张不同的图片按照一定规则拼接在一起,拼接好之后得到一张新的图片,能够扩充训练样本的多样性。

3.IoU threshold(match posotive samples)

https://blog.csdn/qq_37541097/article/details/123229946

4.Optimizered Anchors

对anchors进行优化,但yolov5使用的还是yolov3

5.CIOU

这个在之前讲过啦

本文标签: 理论学习