腾讯姚顺雨称 AI 实用价值高于「刷榜」价值，如何看待这一观点？国产大模型该告别榜单内卷吗？

近日，腾讯云副总裁、腾讯混元大模型负责人姚顺雨在一次公开分享中直言，AI的实用价值远高于“刷榜”价值，并呼吁业界将重心从榜单竞争转向真实场景落地。这一观点迅速引发行业热议：在国产大模型“百模大战”如火如荼的当下，是继续在各类评测榜单上拼个你死我活，还是沉下心来打磨产品、服务产业？国产大模型是否真的到了告别“榜单内卷”的转折点？

刷榜狂欢背后的隐忧

过去两年，国内大模型领域掀起了一场声势浩大的“榜单竞赛”。从C-Eval、MMLU、SuperGLUE到各类中文推理测试，各家厂商轮番发布“冠军成绩”，动辄宣称“超越GPT-4”“全球第一”。一时间，榜单排名成为衡量技术实力的标尺，也成为资本和市场关注的焦点。

然而，这种“唯分数论”的竞争模式逐渐暴露出诸多问题。一方面，部分模型针对评测集进行“特训”，导致分数虚高，实际应用表现却大打折扣；另一方面，过度关注榜单容易让研发团队忽视模型在真实场景中的稳定性、安全性和可部署性。姚顺雨指出：“一个在测试中拿到高分的模型，在用户的真实业务场景里可能连基本的对话流畅度都难以保证。我们不应该为了考试而学习，而应该为了解决问题而学习。”

姚顺雨：实用才是硬道理

姚顺雨的观点并非空穴来风。腾讯混元大模型自去年发布以来，并未过多参与公开榜单竞争，而是专注在腾讯内部业务场景的落地，如微信搜一搜、腾讯广告、企业微信、腾讯会议等。据其介绍，混元大模型在广告创意生成、客服对话、内容审核等场景中，已实现显著的效率提升和成本降低。

“实用价值意味着模型能够真正帮用户解决一个具体问题，比如缩短开发周期、提升客服响应准确率、降低内容安全风险。”姚顺雨强调，“榜单可以提供技术进步的参考，但绝不能成为唯一的目标。”他进一步表示，大模型厂商应当回归商业本质，关注模型在复杂工业环境下的鲁棒性、可解释性以及部署成本等实际指标。

反方声音：榜单是技术进步的“温度计”

对于姚顺雨的观点，并非所有人都完全认同。一些行业观察者认为，榜单评测在技术发展初期仍具有重要的引导作用。中国信通院相关专家此前曾表示，“科学、客观的评测体系有助于行业形成统一的技术标尺，推动大模型从学术研究走向产业落地。”

也有创业公司负责人坦言：“对于中小厂商来说，榜单是获取市场关注、吸引投资最直接的方式。如果没有榜单，可能连被客户看到的机会都没有。”在残酷的商业竞争中，榜单成绩仍然是“敲门砖”之一。

业界共识：需要更贴近产业的评估标准

事实上，无论是“刷榜派”还是“实用派”，双方争议的焦点其实在于“什么样的评测才是好的评测”。姚顺雨的建议并非彻底否定榜单，而是呼吁行业建立更贴近真实应用的评估体系。

近年来，业界已经出现了类似尝试。例如，云厂商开始推出“场景化测评”，针对金融、医疗、法律等垂直行业设计专用测试集；一些评测机构也开始引入“人机协同盲测”，结合用户主观体验打分。华为、百度、阿里等企业也纷纷布局行业大模型，将落地案例作为核心卖点。

告别内卷，回归初心

国产大模型正处于从“技术竞赛”向“价值竞赛”转型的关键期。正如姚顺雨所言，AI的终极目标不是击败某个榜单上的对手，而是让技术普惠千行百业。当行业过度追求短期排名时，难免会牺牲长期创新和用户体验。

当然，告别榜单内卷并不意味着放弃技术追求。一项值得玩味的对比是：OpenAI在推出GPT-4时，并未高调公布各种榜单成绩，而是将重点放在模型的安全对齐、多模态能力及API服务上。这种“少说多做”的风格，或许正是国产大模型应当学习的。

大模型的未来，不在排行榜上，而在每一个真实问题的解决中。对于国产大模型厂商来说，与其在榜单上“卷生卷死”，不如静下心来，跑通一个场景、服务一个行业、解决一个痛点。只有真正创造实用价值，AI才能迎来健康、可持续的发展。

刷榜狂欢背后的隐忧

姚顺雨：实用才是硬道理

反方声音：榜单是技术进步的“温度计”

业界共识：需要更贴近产业的评估标准

告别内卷，回归初心

相关阅读