本文介绍了为什么处理排序数组比处理未排序数组更快?的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

这是一段 C++ 代码,显示了一些非常奇特的行为.出于某种奇怪的原因,对数据进行排序(在定时区域之前)奇迹般地使循环快了近六倍.

#include #include <ctime>#include int main(){//生成数据const unsigned arraySize = 32768;整数数据[数组大小];for (unsigned c = 0; c = 128)总和 += 数据 [c];}}double elapsedTime = static_cast(clock()-start)/CLOCKS_PER_SEC;std::cout <<elapsedTime<<' ';std::cout <<总和 ="<<总和<<' ';}

  • 如果没有 std::sort(data, data + arraySize);,代码运行时间为 11.54 秒.
  • 使用排序后的数据,代码运行时间为 1.93 秒.


一开始,我认为这可能只是语言或编译器异常,所以我尝试了 Java:

import java.util.Arrays;导入 java.util.Random;公共课主要{public static void main(String[] args){//生成数据int arraySize = 32768;int data[] = new int[arraySize];随机 rnd = 新随机(0);for (int c = 0; c .

正如上面所暗示的,罪魁祸首是这个 if 语句:

if (data[c] >= 128)总和 += 数据 [c];




T = 分支被采用N = 未采用分支数据[] = 0, 1, 2, 3, 4, ... 126, 127, 128, 129, 130, ... 250, 251, 252, ...分支 = N N N N N ... N N T T T ... T T T ...= NNNNNNNNNNNN ... NNNNNNNTTTTTTTTT ... TTTTTTTTTT(易于预测)

但是,当数据完全随机时,分支预测器就变得无用了,因为它无法预测随机数据.因此可能会有大约 50% 的错误预测(不比随机猜测好).

data[] = 226, 185, 125, 158, 198, 144, 217, 79, 202, 118, 14, 150, 177, 182, ...分支 = T、T、N、T、T、T、T、N、T、N、N、T、T、T ...= TTNTTTTNTNNTTT ...(完全随机 - 无法预测)




if (data[c] >= 128)总和 += 数据 [c];


int t = (data[c] - 128) >>31;总和 += ~t &数据[c];


(注意这个 hack 并不严格等同于原始的 if 语句.但在这种情况下,它对 data[] 的所有输入值都有效.)

基准:Core i7 920 @ 3.5 GHz

C++ - Visual Studio 2010 - x64 版本

分支 - 随机数据11.777
分支 - 排序数据2.352
无分支 - 随机数据2.564
Branchless - 排序数据2.587

Java - NetBeans 7.1.1 JDK 7 - x64

分支 - 随机数据10.93293813
分支 - 排序数据5.643797077
无分支 - 随机数据3.113581453
Branchless - 排序数据3.186068823


  • 使用 Branch:排序数据和未排序数据之间存在巨大差异.
  • 使用 Hack:排序数据和未排序数据之间没有区别.
  • 在 C++ 的情况下,当数据排序时,hack 实际上比分支慢一点.



  • GCC 4.6.1 with -O3 或 -ftree-vectorize on x64 能够生成条件移动,因此排序之间没有区别和未排序的数据 - 两者都很快.

    (或者有点快:对于已经排序的情况,cmov 可能会更慢,特别是如果 GCC 将它放在关键路径上而不是 add,尤其是在英特尔上cmov 有 2 个周期延迟的 Broadwell 之前:gcc 优化标志 -O3 使代码比 -O2 慢)

  • 即使在 /Ox 下,VC++ 2010 也无法为此分支生成条件移动.

  • 英特尔 C++ 编译器 (ICC) 11 做了一些神奇的事情.它交换两个循环,从而将不可预测的分支提升到外循环.它不仅不受错误预测的影响,而且速度是 VC++ 和 GCC 生成的速度的两倍!换句话说,ICC 利用测试循环击败了基准测试......

  • 如果您为英特尔编译器提供无分支代码,它会直接对其进行矢量化...并且与分支(使用循环交换)一样快.


