Why do I get stray '\377' when including <iostream>?

近日，多位C++开发者在社交平台及技术论坛反映，在项目中包含标准库头文件 <iostream> 时，编译器突然抛出“stray '\377' in program”的错误，导致编译失败。这一看似古怪的报错迅速引发了讨论：为什么一个最基本的头文件会触发非法字符错误？是编译器Bug，还是代码文件本身出了问题？

错误表象：一个“幽灵”八进制字符

“stray '\377'”中的 \377 是八进制表示的字节值，对应十进制255、十六进制0xFF。在ASCII或UTF-8编码中，这个值并非可打印字符，也不属于C++语法允许的符号。当编译器在源文件中遇到这样的字节时，会认为它是“游离”于任何token之外的垃圾，从而终止编译。

有趣的是，错误仅在包含 <iostream> 时出现，而移除该头文件后一切正常。这让人首先怀疑是标准库实现存在问题。然而，进一步分析发现，问题实际出在源文件的编码格式上。

罪魁祸首：UTF-8 BOM

大量反馈指向同一个根源：文件保存为带有BOM（Byte Order Mark，字节顺序标记）的UTF-8格式。BOM是Unicode编码中用于标识字节序的标记，在UTF-8中表现为三个字节：0xEF 0xBB 0xBF。绝大多数现代编译器（如GCC、Clang）能正确处理UTF-8 BOM，将其视为文件头而忽略。但某些老旧版本或特定配置的编译器（特别是某些Windows平台上的工具链）却无法识别，将BOM中的第一个字节 0xEF 当作普通字符读入，并导致后续解析混乱。

那为什么错误偏偏指向 \377（0xFF）？这是因为当编译器误读BOM后，后续的预处理过程会将该字节与周围字符组合成奇怪的token。在某些情况下，0xEF 与 <iostream> 包含指令的 < 结合，经过编译器内部的字符转义处理，最终以八进制 \377 的形式报出。换句话说，报错的字节并非实际存在的 0xFF，而是编译器对错误字节序列的错误解释。

典型案例与解决方案

一位Windows用户报告称，使用Visual Studio 2019创建新项目时，默认保存为“UTF-8 with BOM”格式，结果编译古老C++03代码时出现此错误。而改用“不带BOM的UTF-8”或直接使用系统默认ANSI编码后，问题立即消失。

解决方案主要分三步：

更换编码：在编辑器（如VSCode、Notepad++、Sublime Text）中将文件重新保存为“UTF-8 without BOM”或“ANSI”。
编译器选项：某些编译器提供了禁用BOM处理的选项，例如GCC的 -finput-charset=UTF-8 并配合 -fexec-charset= 参数可缓解，但不如直接修改文件编码彻底。
更新工具链：升级GCC、Clang或Visual Studio编译器至最新版本，新版本通常已兼容UTF-8 BOM。

历史遗存与开发者警示

值得注意的是，“stray '\377'”并非新问题。早在C++98时代，就有开发者因误用扩展ASCII字符而触发此错误。如今，随着Unicode的普及，更多开发者习惯使用UTF-8编码，但部分老旧编译器或跨平台构建系统（如MinGW、Cygwin）仍在默认ANSI环境下工作。而BOM在Linux/macOS环境下被视作非法字节，更容易引发类似故障。

这一事件也提醒广大开发者：同一项目中应统一文件编码，并在团队中明确约定。使用现代IDE的“自动检测编码”功能往往不够可靠，建议在项目根目录放置 .editorconfig 文件，强制指定 charset = utf-8 且 trim_trailing_whitespace = true。

结语

看似离奇的 stray '\377' 错误，实则是编码历史与工具链兼容性的一次碰撞。与其说它是编译器的Bug，不如说它是开发者对编码格式不够重视的代价。在全球化开发日益频繁的今天，理解并妥善处理文件编码，已成为每位程序员必备的基本素养。

Why do I get stray &#39;\377&#39; when including &lt;iostream&gt;?

错误表象：一个“幽灵”八进制字符

罪魁祸首：UTF-8 BOM

典型案例与解决方案

历史遗存与开发者警示

结语

相关阅读