近日,腾讯云副总裁、腾讯混元大模型负责人姚顺雨在一次公开分享中直言,AI的实用价值远高于“刷榜”价值,并呼吁业界将重心从榜单竞争转向真实场景落地。这一观点迅速引发行业热议:在国产大模型“百模大战”如火如荼的当下,是继续在各类评测榜单上拼个你死我活,还是沉下心来打磨产品、服务产业?国产大模型是否真的到了告别“榜单内卷”的转折点?

刷榜狂欢背后的隐忧

过去两年,国内大模型领域掀起了一场声势浩大的“榜单竞赛”。从C-Eval、MMLU、SuperGLUE到各类中文推理测试,各家厂商轮番发布“冠军成绩”,动辄宣称“超越GPT-4”“全球第一”。一时间,榜单排名成为衡量技术实力的标尺,也成为资本和市场关注的焦点。

然而,这种“唯分数论”的竞争模式逐渐暴露出诸多问题。一方面,部分模型针对评测集进行“特训”,导致分数虚高,实际应用表现却大打折扣;另一方面,过度关注榜单容易让研发团队忽视模型在真实场景中的稳定性、安全性和可部署性。姚顺雨指出:“一个在测试中拿到高分的模型,在用户的真实业务场景里可能连基本的对话流畅度都难以保证。我们不应该为了考试而学习,而应该为了解决问题而学习。”

姚顺雨:实用才是硬道理

姚顺雨的观点并非空穴来风。腾讯混元大模型自去年发布以来,并未过多参与公开榜单竞争,而是专注在腾讯内部业务场景的落地,如微信搜一搜、腾讯广告、企业微信、腾讯会议等。据其介绍,混元大模型在广告创意生成、客服对话、内容审核等场景中,已实现显著的效率提升和成本降低。

“实用价值意味着模型能够真正帮用户解决一个具体问题,比如缩短开发周期、提升客服响应准确率、降低内容安全风险。”姚顺雨强调,“榜单可以提供技术进步的参考,但绝不能成为唯一的目标。”他进一步表示,大模型厂商应当回归商业本质,关注模型在复杂工业环境下的鲁棒性、可解释性以及部署成本等实际指标。

反方声音:榜单是技术进步的“温度计”

对于姚顺雨的观点,并非所有人都完全认同。一些行业观察者认为,榜单评测在技术发展初期仍具有重要的引导作用。中国信通院相关专家此前曾表示,“科学、客观的评测体系有助于行业形成统一的技术标尺,推动大模型从学术研究走向产业落地。”

也有创业公司负责人坦言:“对于中小厂商来说,榜单是获取市场关注、吸引投资最直接的方式。如果没有榜单,可能连被客户看到的机会都没有。”在残酷的商业竞争中,榜单成绩仍然是“敲门砖”之一。

业界共识:需要更贴近产业的评估标准

事实上,无论是“刷榜派”还是“实用派”,双方争议的焦点其实在于“什么样的评测才是好的评测”。姚顺雨的建议并非彻底否定榜单,而是呼吁行业建立更贴近真实应用的评估体系。

近年来,业界已经出现了类似尝试。例如,云厂商开始推出“场景化测评”,针对金融、医疗、法律等垂直行业设计专用测试集;一些评测机构也开始引入“人机协同盲测”,结合用户主观体验打分。华为、百度、阿里等企业也纷纷布局行业大模型,将落地案例作为核心卖点。

告别内卷,回归初心

国产大模型正处于从“技术竞赛”向“价值竞赛”转型的关键期。正如姚顺雨所言,AI的终极目标不是击败某个榜单上的对手,而是让技术普惠千行百业。当行业过度追求短期排名时,难免会牺牲长期创新和用户体验。

当然,告别榜单内卷并不意味着放弃技术追求。一项值得玩味的对比是:OpenAI在推出GPT-4时,并未高调公布各种榜单成绩,而是将重点放在模型的安全对齐、多模态能力及API服务上。这种“少说多做”的风格,或许正是国产大模型应当学习的。

大模型的未来,不在排行榜上,而在每一个真实问题的解决中。对于国产大模型厂商来说,与其在榜单上“卷生卷死”,不如静下心来,跑通一个场景、服务一个行业、解决一个痛点。只有真正创造实用价值,AI才能迎来健康、可持续的发展。