Branchless Quicksort faster than std:sort and pdqsort with C and C++ API

近日，一项名为“Branchless Quicksort”的新型排序算法在开发者社区引起广泛关注。该算法通过消除传统快速排序中的分支预测失败问题，在多种测试场景下实现了对 C++ 标准库 std::sort 以及业界公认的高性能排序算法 pdqsort 的显著性能超越。目前，该算法已提供完整的 C 和 C++ API，便于开发者直接集成到现有项目中。

分支预测：排序性能的隐形杀手

在传统快速排序实现中，核心操作是不断比较元素大小并决定向左或向右分区。这一比较操作依赖于 CPU 的分支预测机制。当数据分布随机时，分支预测失败率高达 50%，导致大量流水线冲刷与性能损失。std::sort 虽然混合了插入排序与堆排序以优化最坏情况，但其分支密集的 Quickselect 核心依然受限于此。

Branchless Quicksort 的设计者采用了一种“无分支”的策略：通过将比较结果转化为算术运算（如使用 movemask、cmp 与位运算）来替代条件跳转。具体而言，算法将分区时的条件判断替换为计算索引偏移量，使得所有路径都执行相同的指令流，彻底规避了分支预测惩罚。这一思路借鉴了 SIMD（单指令多数据流）优化思想，但 Branchless Quicksort 无需向量寄存器，仅靠标量运算即可实现。

性能实测：小数据与大数据均占优

根据公开的基准测试结果，Branchless Quicksort 在多种数据集上表现强劲：

随机整数数组（int32）：对于 100 万元素规模，Branchless Quicksort 用时约 0.28 秒，而 std::sort 约 0.42 秒，pdqsort 约 0.34 秒。提速幅度达 18%~33%。
已排序/逆序数据：传统快速排序因 std::sort 的混合策略对已排序数据表现尚可，但 Branchless Quicksort 依然领先约 15%。
小数组（<32 元素）：得益于无分支预比较，处理 16 个整数时用时仅为 std::sort 的 60%。
浮点与双精度数据：算法对 NaN 和特殊值处理也采用了无分支模式，性能提升稳定在 20% 以上。

值得注意的是，对于完全随机的长字符串（键值类型为 std::string），由于比较操作本身成本较大且 std::sort 针对复杂类型有内联优化，Branchless Quicksort 的领先幅度缩小至 5%~10%，但仍未出现退步。

C/C++ API 设计：零依赖、易集成

该算法以单个头文件 branchless_qsort.h 的形式发布，同时提供 C 风格 void branchless_qsort(void *base, size_t num, size_t size, int (*cmp)(const void*, const void*)) 接口以及 C++ 模板 template <typename T, typename Compare = std::less<T>> void branchless_sort(T* first, T* last, Compare comp = Compare{})。

C 接口：完全兼容现有回调比较函数，可直接替换 qsort 调用。
C++ 接口：支持任意随机访问迭代器、自定义比较器和 std::vector、std::array。算法内部自动检测元素类型，对整型和浮点型启用分支优化路径，对复杂类型回退至传统但经过权衡的分支减少版本。

项目作者强调，该算法不依赖任何第三方库，无需 SIMD 指令集支持，在 ARM、x86 以及 RISC-V 架构上均可编译运行。唯一要求是编译器支持 C11 或 C++11 标准。

与 pdqsort 的对比：各有所长

pdqsort（Pattern-Defeating Quicksort）曾被誉为“最快通用排序算法”，其通过检测几种常见的数据模式（如已排序、少量无序）来优化分区过程。Branchless Quicksort 的核心优势在于“所有数据模式均受益”，而 pdqsort 在某些未命中模式时仍会落入分支密集型代码。不过，pdqsort 在自适应策略上更灵活，在混合小数组时也有不错表现。多位测试者指出，Branchless Quicksort 在“纯粹无分支”与“检测模式”之间做出了更极端的取舍——它干脆不检测任何模式，而是让所有操作均匀化，从而获得更稳定的高吞吐。

前景与局限

该算法的作者——一位来自硅谷的系统软件工程师——在博客中表示，他受到“无分支二分查找”与“无分支哈希表”思路的启发，历时三个月改进快速排序核心。目前代码已在 GitHub 开源，并收获 2000 余颗星。业界评价认为，Branchless Quicksort 为现代 CPU 的微架构特性提供了极佳的适配范例，尤其适合数据库索引、内存实时排序、游戏引擎中的粒子系统等对延迟敏感的场合。

不过，算法仍存在局限：它不适合作为稳定排序（不保留相等元素相对顺序），且对比较函数本身含有分支（如字符串比较中的 strcmp 循环）无法进一步加速。但总体而言，这一创新为排序算法的工程优化打开了新方向——在追求极致速度时，或许“消除分支”比“猜测模式”更值得投入。

分支预测：排序性能的隐形杀手

性能实测：小数据与大数据均占优

C/C++ API 设计：零依赖、易集成

与 pdqsort 的对比：各有所长

前景与局限

相关阅读