SIMD——请不要妄图优化opencv的函数

编程入门行业动态更新时间:2024-10-22 21:23:48

SIMD——<a href=https://www.elefans.com/category/jswz/34/1761889.html style= 请不要妄图优化opencv的函数"/>

SIMD——请不要妄图优化opencv的函数

大纲

ORB-SLAM特征提取之SIMD优化
- 一、优化手段
- - 1、NEON
  - 2、SSE
- 二、cv::gaussianblur函数优化
- 三、cv::FAST函数优化
- 四、原因分析

ORB-SLAM特征提取之SIMD优化

一、优化手段

1、NEON

NEON是基于ARM架构的一种128位的SIMD(Single Instruction, Multiple Data,单指令、多数据)的拓展结构，具体的细节在这里不做过多的介绍，我们来讨论NEON在实际工程中的两种使用方式：

（1）汇编

相信学习过单片机的朋友对汇编语言一定都是又恨又怕，复杂的指令与奇怪的逻辑令人望而却步，我们来看一小段基于汇编的NEON指令：

 "vld1.8       {d8,d9}, [%[in0]]\n\t""add          %[in0], %[step]\n\t""vld1.8       {d10,d11}, [%[in1]]\n\t""add          %[in1], %[step]\n\t""vld1.8       {d12,d13}, [%[in0]]\n\t""add          %[in0], %[step]\n\t""vld1.8       {d14,d15}, [%[in1]]\n\t"

什么东西？这是什么东西！说实话，我也看不太懂，所以基于汇编的NEON指令难度大，可移植性差，但是由于汇编语言的特性，决定了它具有很高的效率。Anyway，我们来看下一种方式。

（2）使用arm提供的Intrinsics函数
可以认为是内联函数，但是在编译时编译器会将函数转化为neon指令。调用该函数需要包含头文件arm_neon.h，该头文件包含了neon各种操作函数。当然，我在这里同样来展示一段代码：

 for(; j < img.cols - 16 - 3; j += 16, ptr += 16){uint8x16_t m0,m1;uint8x16_t v0 = vld1q_u8((const uint8_t*)ptr);uint8x16_t v1 = vqsubq_u8(v0,t);v0 = vqaddq_u8(v0,t);

了解过NEON的同学这段代码应该不难看懂，就是简单的加减法，我们可以看到，这种内联方式的NEON代码指令难度低，可移植行也就比汇编形式的高很多。

2、SSE

SSE是Intel x86架构CPU的SIMD指令的简称，与NEON一样具有汇编和内联函数两种形式。

二、cv::gaussianblur函数优化

由于本次实验的电脑是intel的CPU，所以采用SSE优化的方式对高斯模糊函数进行优化，在优化之前，记录了cv::gaussianblur函数的效率如下图所示：9.41ms，在我的认知领域内，应该不是具有很高效率的时常，所以我对该函数进行了SSE优化，对gaussainblur函数的源码进行了修改，执行时间如下：惊人的148ms。当然，如果你需要的源码，可以私信我，我发给你自己run一下。总的来说，这并不是一次非常愉快的优化过程，同样的，接下来的SSE优化也令我大跌眼镜。

三、cv::FAST函数优化

FAST提取图像中的特征点是ORB-SLAM系列中使用的一种方法，具体原理不再赘述，因为这毕竟不是一篇介绍SLAM算法的blog，我们来看opencv实现的FAST函数耗时如何：
结果是2.65ms，不得不说opencv优化的已经很好了。注意！！！这里使用了和ORBSLAM2中相同的阈值：20。在ORBSLAM2中该函数在网格的循环遍历中被调用，ORBSLAM2将图像分为30x30个网格，在每个网格中进行FAST角点检测，经过测量，每个网格中耗时约为0.02ms,为什么差异这么大呢，首先于ORBSLAM中独特的网格划分有关系，其次与图像的大小也有关系。接下来，我们来看我进行了SSE优化的代码，相关代码已经有NEON实现，你需要做的只是将NEON转化为SSE即可：50ms。。唉，当我看到这个结果的时候，心里有一种说不出的酸楚…

四、原因分析

实验失败不可怕，可怕的是不分析为什么失败，经过资料的查询与文献的阅读我大概的掌握了其中的奥义。

（1）OpenCV的函数自带SIMD加速，无论是gaussainblur还是FAST都自带了SMID的并行加速，并且OpenCV代码结构和顺序更加合理，能够更好的发挥CPU的全部性能
（2）OpenCV的优化是按照运行环境中CPU的架构来决定的，我们知道到INTEL的SIMD指令集avx512是高于SSE的，由于我运行的环境中支持avx512，所以使用该指令集的优化代码效率必然高于SSE。
（3）最终的建议是：别动OpenCV的源码为好，除非用汇编…，这得是神人来写了。

更多推荐

SIMD——请不要妄图优化opencv的函数

本文发布于:2024-02-11 14:25:50，感谢您对本站的认可！

本文链接:https://www.elefans.com/category/jswz/34/1681463.html