Arithmetic Without Numbers – How LLMs Do Math — Hacker News

“2+2等于几？”对人类而言，这是一道连幼儿园小朋友都能秒答的题目。但当我们将同样的问题抛给如今风头正劲的大语言模型（LLM）时，它究竟是真的“算”出了答案，还是靠着海量文本中藏着的“记忆”在表演一场精妙的模仿秀？最新研究表明，二者都不是——这些模型正在用一种与我们完全不同的方式“做数学”，而这种方式的核心，恰恰是“没有数字”。

数学成绩亮眼，但背后是“模式识别”

近年来，以GPT-4、Claude、Gemini为代表的大语言模型在数学推理测试中屡创佳绩，甚至在某些竞赛题上超越了人类平均分。然而，苹果公司研究团队今年发布的一篇论文，给这股热潮泼了一盆冷水。他们发现，当题目中的数字被替换为近似的数值（例如将“5个苹果”改为“8个苹果”），或者加入一些无关的干扰信息时，模型的正确率会断崖式下降。这暗示了一条关键线索：LLM并非在解答一个具体的数学问题，而是在识别一种“文本模式”。

换句话说，当你输入“小明有5个苹果，小红有3个苹果，他们一共有几个？”时，模型并非执行“5+3”的加法运算，而是在它训练过的海量语料中搜索类似句式，然后根据“总数=大数+小数”这一高频出现的语言模板，输出一个最可能的数字结果。这种机制，本质上与搜索引擎的“关键词匹配”异曲同工。

“数字盲”的算术：大数加法暴露软肋

为了进一步验证这一观点，麻省理工学院和哈佛大学的研究团队设计了一套巧妙的实验：先用自然数提问（如“1234+5678等于多少？”），再用完全由中文词语组成的数字表示（如“一千二百三十四加五千六百七十八”），最后用十进制数字与中文混合的表述（如“1234加五千六百七十八”）。结果令人惊讶：当表述方式发生微小变化时，同一道题目的正确率波动超过30%。

更耐人寻味的是，模型在处理“九位数加法”时，常常在进位位置上出错——不是算错数值，而是搞错了“应该在哪一位进位”。例如，它可能输出“999999+1=10000000”，多了一个零。这种错误模式与人类计算错误完全不同：人类通常算错个位，但模型往往在“数位结构”上迷失。研究指出，LLM在处理大数加法时，更像是在模仿一种“生成数字序列”的统计过程，而非执行算术逻辑——它记得“进位”这个词在类似句子中常出现，却不明白为什么需要进位。

一种新的“数字认知”假说

那么，难道LLM完全不懂数学吗？并非如此。事实上，当题目涉及简单的单步运算（如一位数乘法）时，模型的准确率几乎达到100%。这说明，经过大量训练，LLM已经将那些出现频次极高的小数值结果（如“7×8=56”）内化为了“统计事实”，就像它记得“埃菲尔铁塔在巴黎”一样。但对于复杂到从未出现在训练数据中的长尾计算，它就只能依赖一种被称为“平滑近似”的泛化能力。

日本东京大学的一项神经符号模型研究表明，LLM的内部可能存在一种“伪数值表示”：它不精确地存储数字，而是将数字大小映射为一种模糊的“量级区域”。举个例子，当模型看到“123456”时，它可能不会记住每一位，而只意识到这是一个“六位数”且“首位是1”。这种近似在简单题目上足够使用，但在需要精确退位的多步运算中则漏洞百出。

对AI可靠性的警示

这些发现对当前AI应用提出了严峻挑战。越来越多的教育软件、金融服务、科研工具开始依赖大语言模型进行数学推理。然而，如果模型本质上是在“玩文字游戏”，那我们就必须警惕它的幻觉——它可能自信满满地给出一个错误的答案，且无法解释自己的推理过程。

“在人类看来，数学是逻辑的必然；但对LLM而言，数学不过是另一种语言。”加州大学伯克利分校的计算机科学家丹·克莱因指出，“它学会了如何用数学词汇构建合理的句子，但从未掌握句子背后的真理。”这也解释了为什么当题目形式从文字变成图表、从自然语言变成代码时，模型的正确率会直接崩溃——因为那些“数学词汇”的统计模式消失了。

未来：走向“数理+统计”的混合大脑

面对LLM“没有数字的算术”这一先天缺陷，研究者正探索两条路径。其一是“神经符号融合”——让语言模型负责理解题意、提取变量，再调用外部计算器或数学引擎执行具体运算。GPT-4的“代码解释器”功能已初见成效。其二是增强模型的“结构化推理”能力，通过更大规模的多任务训练，强迫LLM学会真正的数学运算规则，而不是仅仅记住模式。

无论如何，LLM的“数学困惑”给我们上了一课：具备“对话能力”并不等于具备“思维能力”。当我们惊叹于AI能帮助孩子解方程时，也必须铭记——对AI而言，那很可能只是一场没有数字的算术游戏。

Arithmetic Without Numbers – How LLMs Do Math

数学成绩亮眼，但背后是“模式识别”

“数字盲”的算术：大数加法暴露软肋

一种新的“数字认知”假说

对AI可靠性的警示

未来：走向“数理+统计”的混合大脑

相关阅读