What is XOR RAX, RAX MOV RDI, [PTR] REP STOSQ

近日，一段看似简单的汇编指令——“XOR RAX, RAX; MOV RDI, [PTR]; REP STOSQ”——在国内外技术社区引发广泛讨论。这条由三个基本操作组合而成的代码片段，并非某个新型漏洞或重大安全事件的产物，而是开发者们在探讨底层优化与代码效率时抛出的“经典考题”。它究竟有何玄妙？为何能让程序员、系统工程师乃至安全研究员为之驻足？本文为您深度解析。

一、指令拆解：三个步骤的“快准狠”

要理解这段代码，首先要拆解它的每个指令。

XOR RAX, RAX：XOR是“异或”运算，任何数值与自身异或结果均为0。在x86-64架构中，XOR RAX, RAX被广泛用于将RAX寄存器（64位通用寄存器）置零。相比直接使用MOV RAX, 0（需要占用较长编码及执行周期），XOR操作不仅指令字节更短（2字节对比7字节），且在主流处理器中实现了零延迟的寄存器重命名优化——现代CPU会直接为RAX分配一个“零寄存器”的物理副本，无需实际执行运算。
MOV RDI, [PTR]：将PTR（指针）所指向的内存地址加载到RDI（目的索引寄存器）中。RDI通常用于字符串操作指令的目的地址，这里为后续的重复存储做好准备。
REP STOSQ：REP前缀表示重复执行后续指令，直到RCX寄存器的值减为0；STOSQ则代表“Store String Quadword”，即将RAX中的64位值（此处为0）重复写入RDI指向的内存区域，每次写入后RDI自动递增8字节。组合起来，REP STOSQ; RCX循环次数控制，完成对整个缓冲区的高效清零。

三者联合：快速将RAX清零，将目标地址载入RDI，然后一次性填充整个内存块为0。这几乎是编译器生成代码时最常用的清零模式之一，尤其适用于对齐到8字节倍数的缓冲区，性能远超逐字节写入的REP STOSB。

二、优化哲学：每一时钟周期都要“抠”

这段代码之所以成为话题，在于它浓缩了底层优化的核心思想——在指令层级“榨干”CPU的每一滴潜能。

资深系统程序员李明（化名）向记者解释：“很多人以为写高级语言就够了，但当你需要处理大量数据——比如清空几百兆的密码缓存、初始化庞大的哈希表，或者是在内核态执行零拷贝批量操作时，这几条指令的微调就能带来5%到20%的性能差异。”他进一步指出，XOR RAX, RAX相比MOV RAX, 0在Intel Haswell及后续架构上可节省1~2个时钟周期，而REP STOSQ利用处理器的快速串行存储微码，能够实现接近内存带宽的写入速度，是手动循环`for(i=0;i

一、指令拆解：三个步骤的“快准狠”

二、优化哲学：每一时钟周期都要“抠”

相关阅读