Some questions about ARM/ARM64 write combine(NORMAL_NC) memory attribute read/write and memory barriers

近日，在Linux内核开发者社区和嵌入式系统技术论坛中，一则关于“ARM/ARM64写结合（Write Combine）NORMAL_NC内存属性读写与内存屏障”的技术讨论引发广泛关注。多位内核维护者和芯片驱动工程师围绕该主题提出了若干关键问题，涉及内存一致性、性能优化及驱动稳定性等核心议题。本文整合相关技术资料与专家观点，对NORMAL_NC内存属性的读写特性、潜在陷阱及内存屏障的正确使用进行系统梳理。

背景：NORMAL_NC内存属性的定位与应用

在ARM/ARM64架构中，内存属性（Memory Attributes）通过页表描述符控制缓存策略、共享属性及访问顺序。其中，Normal Non-Cacheable（NORMAL_NC）是一种特殊模式：它标记内存区域为“正常”类型（区别于设备内存），但禁止CPU缓存，同时允许硬件进行写合并（Write Combine）。该属性常见于帧缓冲、DMA缓冲区或需要CPU与外设共享数据的场景——既希望避免缓存导致的数据不一致，又期望利用写合并提升批量写入吞吐量。

然而，正是这种“半缓存化”设计引发了复杂的读写顺序问题。与强序（Strongly Ordered）设备内存不同，NORMAL_NC允许处理器对写操作进行重排和合并，这给软件开发者带来了微妙而危险的内存屏障需求。

核心问题：NORMAL_NC读写的非确定性

多位开发者指出，NORMAL_NC内存的读操作并不具备与写相同的合并特性。读操作通常按字/字节直接发起，而写操作可能被合并为更大的总线事务。这种不对称导致经典陷阱：当CPU写入一个标记为NORMAL_NC的缓冲区后，立即读取同一位置，可能读到过时的值——因为写入仍停留在写缓冲中，而读操作可能绕过缓冲直接访问内存。

更复杂的情况出现在多核或多主设备场景。例如，GPU或DMA控制器访问同一NORMAL_NC内存区域时，若软件未正确插入内存屏障（如DSB、DMB指令），CPU的写合并可能使外设看到非预期的数据序列。内核社区曾报告过帧缓冲驱动中的撕裂现象，最终定位为缺少写屏障导致写合并跨行序被破坏。

内存屏障的辩证：过度使用与不足

针对此类问题，ARM架构规范明确要求：若需要保证观察顺序（Ordering），必须使用内存屏障。但专家警告，在NORMAL_NC属性上滥用屏障会抵消写合并带来的性能优势。例如，每写入一个word便执行DSB，等于强制刷写写缓冲，吞吐量可能下降数倍。

正确的实践是：在数据块写入完成后，插入一次数据内存屏障（DMB）确保写操作对所有观测者可见，再通过标志位同步。内核中的DMA API和dma_wmb()宏正是为此设计。但问题在于，许多开发者混淆了“写合并”与“写缓冲”概念——前者是硬件行为，后者是CPU微架构的写缓冲队列。ARMv8规范进一步引入了“多拷贝原子性（Multi-copy Atomicity）”概念，使得不同核观察同一NORMAL_NC写入的顺序并不天然一致，除非显式使用屏障。

案例研究：驱动开发中的“不可复现BUG”

某知名嵌入式设备厂商的工程师分享了一个典型案例：在ARM Cortex-A72平台上，一个视频编码驱动使用NORMAL_NC缓冲区与硬件编解码器共享比特流数据。在压力测试中，编码器偶尔解码出错误帧，但使用相同的二进制在Cortex-A53平台上从未复现。深入分析发现，A72的写缓冲区深度更大，导致写合并后跨64字节边界的数据顺序与A53不同。最终修复是：在触发编解码器开始处理前，添加一个DMB ST屏障，强制合并后的写操作按程序顺序提交。

该案例揭示了NORMAL_NC属性的硬件实现差异——不同微架构对写合并的粒度、策略存在微妙区别，而软件需要假设最弱的保证。

专家建议：构建可移植的内存顺序模型

ARM技术专家在社区回复中强调：对于NORMAL_NC内存，应遵循以下原则：

写侧：使用dma_wmb()或__iowmb()确保写操作对外设可见，而非依赖编译器屏障。
读侧：若需要读取被写入者更新的数据，应使用dma_rmb()或smp_rmb()防止读重排。
显式同步：避免依赖任何隐式顺序，如volatile关键字无法阻止硬件重排。
文档化：在驱动注释中明确标出依赖内存屏障的位置，并说明期望的原子性粒度。

未来展望

随着ARM服务器和AI处理器对高性能DMA的需求增长，NORMAL_NC属性的应用将更加普遍。Linux内核社区正在推动更清晰的内存属性抽象，例如通过dma_alloc_noncoherent()和dma_sync_single_for_* API封装屏障细节。然而，底层硬件行为的复杂性意味着，深入理解写合并与屏障的交互，仍是嵌入式开发者不可或缺的核心技能。

本文综合自Linux内核邮件列表、ARM Architecture Reference Manual及多位社区开发者访谈。