“2+2等于几?”对人类而言,这是一道连幼儿园小朋友都能秒答的题目。但当我们将同样的问题抛给如今风头正劲的大语言模型(LLM)时,它究竟是真的“算”出了答案,还是靠着海量文本中藏着的“记忆”在表演一场精妙的模仿秀?最新研究表明,二者都不是——这些模型正在用一种与我们完全不同的方式“做数学”,而这种方式的核心,恰恰是“没有数字”。

数学成绩亮眼,但背后是“模式识别”

近年来,以GPT-4、Claude、Gemini为代表的大语言模型在数学推理测试中屡创佳绩,甚至在某些竞赛题上超越了人类平均分。然而,苹果公司研究团队今年发布的一篇论文,给这股热潮泼了一盆冷水。他们发现,当题目中的数字被替换为近似的数值(例如将“5个苹果”改为“8个苹果”),或者加入一些无关的干扰信息时,模型的正确率会断崖式下降。这暗示了一条关键线索:LLM并非在解答一个具体的数学问题,而是在识别一种“文本模式”。

换句话说,当你输入“小明有5个苹果,小红有3个苹果,他们一共有几个?”时,模型并非执行“5+3”的加法运算,而是在它训练过的海量语料中搜索类似句式,然后根据“总数=大数+小数”这一高频出现的语言模板,输出一个最可能的数字结果。这种机制,本质上与搜索引擎的“关键词匹配”异曲同工。

“数字盲”的算术:大数加法暴露软肋

为了进一步验证这一观点,麻省理工学院和哈佛大学的研究团队设计了一套巧妙的实验:先用自然数提问(如“1234+5678等于多少?”),再用完全由中文词语组成的数字表示(如“一千二百三十四加五千六百七十八”),最后用十进制数字与中文混合的表述(如“1234加五千六百七十八”)。结果令人惊讶:当表述方式发生微小变化时,同一道题目的正确率波动超过30%。

更耐人寻味的是,模型在处理“九位数加法”时,常常在进位位置上出错——不是算错数值,而是搞错了“应该在哪一位进位”。例如,它可能输出“999999+1=10000000”,多了一个零。这种错误模式与人类计算错误完全不同:人类通常算错个位,但模型往往在“数位结构”上迷失。研究指出,LLM在处理大数加法时,更像是在模仿一种“生成数字序列”的统计过程,而非执行算术逻辑——它记得“进位”这个词在类似句子中常出现,却不明白为什么需要进位。

一种新的“数字认知”假说

那么,难道LLM完全不懂数学吗?并非如此。事实上,当题目涉及简单的单步运算(如一位数乘法)时,模型的准确率几乎达到100%。这说明,经过大量训练,LLM已经将那些出现频次极高的小数值结果(如“7×8=56”)内化为了“统计事实”,就像它记得“埃菲尔铁塔在巴黎”一样。但对于复杂到从未出现在训练数据中的长尾计算,它就只能依赖一种被称为“平滑近似”的泛化能力。

日本东京大学的一项神经符号模型研究表明,LLM的内部可能存在一种“伪数值表示”:它不精确地存储数字,而是将数字大小映射为一种模糊的“量级区域”。举个例子,当模型看到“123456”时,它可能不会记住每一位,而只意识到这是一个“六位数”且“首位是1”。这种近似在简单题目上足够使用,但在需要精确退位的多步运算中则漏洞百出。

对AI可靠性的警示

这些发现对当前AI应用提出了严峻挑战。越来越多的教育软件、金融服务、科研工具开始依赖大语言模型进行数学推理。然而,如果模型本质上是在“玩文字游戏”,那我们就必须警惕它的幻觉——它可能自信满满地给出一个错误的答案,且无法解释自己的推理过程。

“在人类看来,数学是逻辑的必然;但对LLM而言,数学不过是另一种语言。”加州大学伯克利分校的计算机科学家丹·克莱因指出,“它学会了如何用数学词汇构建合理的句子,但从未掌握句子背后的真理。”这也解释了为什么当题目形式从文字变成图表、从自然语言变成代码时,模型的正确率会直接崩溃——因为那些“数学词汇”的统计模式消失了。

未来:走向“数理+统计”的混合大脑

面对LLM“没有数字的算术”这一先天缺陷,研究者正探索两条路径。其一是“神经符号融合”——让语言模型负责理解题意、提取变量,再调用外部计算器或数学引擎执行具体运算。GPT-4的“代码解释器”功能已初见成效。其二是增强模型的“结构化推理”能力,通过更大规模的多任务训练,强迫LLM学会真正的数学运算规则,而不是仅仅记住模式。

无论如何,LLM的“数学困惑”给我们上了一课:具备“对话能力”并不等于具备“思维能力”。当我们惊叹于AI能帮助孩子解方程时,也必须铭记——对AI而言,那很可能只是一场没有数字的算术游戏。