--- title: 国产顶尖模型 benchmark 评分那么高,可实际效果为什么差?看完 Anthropic 这篇博客,刷分的因素太单一了 source_url: https://mp.weixin.qq.com/s/asGfEOjxrZq8sNaPXSySfQ publish_date: 2026-05-10 tags: [wechat, article, claude, agent] review_value: 7 review_confidence: 7 review_recommendation: neutral sha256: 7701a7a69e8f312669cbfe21cf58aa382689bb4bae18548ebf29871589b1041d --- --- source: wechat source_url: https://mp.weixin.qq.com/s/asGfEOjxrZq8sNaPXSySfQ ingested: 2026-05-09 feed_name: 科技充电站 wechat_mp_fakeid: MP_WXS_3237134318 source_published: 2026-03-12 --- # 国产顶尖模型 benchmark 评分那么高,可实际效果为什么差?看完 Anthropic 这篇博客,刷分的因素太单一了 > AI 时代,有两种行为: > > 一种,活在别人的评测里,把模型的强当自己的强,痴人说梦; > > 另一种,活在真实的实战里,用最顶级的 AI,武装自己。 > > 前者在噪音里坐享"技术平权",后者在疼痛中完成"自我进化"。 朋友们好,我是行小招。 Anthropic 刚发了一篇工程博客,用实验数据回答了一个我一直想不通的问题:为什么排行榜上的模型分数那么好看,我自己用起来就是差那么一截? 原文链接:https://www.anthropic.com/engineering/infrastructure-noise Anthropic 在 Terminal-Bench 2.0 上做了一组对照实验,控制变量做到了极致:同一个 Claude 模型、同一套评测框架、同一组任务、同样的参数,唯一变化的是容器的资源配置,也就是给多少内存、CPU 和网络带宽。 结果?资源最充裕和最紧张的配置之间,分数差了 6 个百分点,统计显著性 p < 0.01。 6 个点是什么概念?现在排行榜上头部模型之间的差距,经常也就两三个点。 光是换一台机器跑,分数波动就可能比"模型 A 比模型 B 强"的那个差距还大。 ** 排行榜上 6 个点的领先,可能不是模型强,是机器好 ** ## 为什么机器配置能影响这么大 传统 benchmark 很简单:给模型一个问题,模型输出答案,打分,运行环境不参与评分过程。 但 Agent 编程评测完全不同。模型拿到的是一个完整的运行环境,它要在里面写代码、跑测试、装依赖、多轮迭代,容器不再是一个被动的盒子,而是解题过程的一部分。 举个具体例子,Terminal-Bench 里有个叫 bn-fit-modify 的任务,需要做贝叶斯网络拟合。有些模型上来第一步就装 pandas、networkx、scikit-learn 全家桶,资源充裕的时候装完直接干活没问题,资源卡着给的时候 Pod 在 pip install 过程中内存超了直接被 kill,一行解题代码都没写出来。不是模型不会做,是机器不让做。 ** 两个资源预算不同的 Agent,根本就不是在做同一张试卷 ** ## 3 倍是个分水岭 Anthropic 测了六种资源配置,从严格按规格给(1x)到完全不设上限,结果很有意思,大致分两个阶段。 从 1x 到 3x:基础设施错误率从 5.8% 降到 2.1%(p < 0.001),但成功率的提升很小,处于统计噪声区间(p=0.40)。1x 下崩溃的那些任务大多数本来就不会成功,Agent 在瞎转的时候撞上了资源墙被杀掉了,但它本来就没走在通往正确解的路上。 从 3x 到不设上限:成功率跳升了近 4 个百分点,远超错误率下降的幅度。额外资源真正帮 Agent 解开了之前解不了的题,比如拉取大型依赖包、启动高开销子进程、跑内存密集型测试套件。 3x 以内修的是"冤假错案",3x 以上给的是"真实助力"。 ** 资源限制不只影响稳定性,它直接改变了评测在测什么 ** ## 你的机器不是人家的机器 这个发现放到日常使用场景里就更有意思了。 排行榜上的跑分环境是精心调过的,Terminal-Bench 官方用的沙箱允许临时超额分配而不终止容器,相当于给了隐性的 buffer。而 Anthropic 自己在 Kubernetes 上跑的时候,把保证分配和硬杀阈值设成一样的值,结果 6% 的任务因为 Pod 错误直接失败,跟模型能力毫无关系。 我们自己用的时候呢?CPU、内存、网络条件都是随机的,可能还同时跑着一堆别的东西,你的环境跟人家跑分的环境,差距可能比 1x 和 3x 还大。 这就解释了那个经典困惑:为什么 benchmark 上某个模型遥遥领先,我用起来感觉也就那样?你看到的分数是在最优基础设施上跑出来的,而你的体感是在你自己那台机器上产生的。 ** "模型能力"和"基础设施行为"之间的边界,远比一个分数暗示的要模糊 ** ## 几个百分点,也许只是一台更大的虚拟机 Anthropic 这篇文章的结论很克制:排行榜上 3 个百分点以内的差距值得保持怀疑,除非评测配置被记录在案且保持一致。 他们在 SWE-bench 上也做了交叉验证,效应方向一致但幅度更小,5 倍资源下仅高 1.54 个百分点,符合预期,因为 SWE-bench 任务的资源需求本来就低一些。 个人感觉,Anthropic 的评测一直比较克制,公布的分数和自己实际使用的体感相差不多。反观有些模型,排行榜上看着猛,用起来总觉得差点意思,到底是模型能力的差距还是跑分环境的差距,现在多了一个可以量化的解释维度。 刷分是业内公开的秘密,但话说回来,如果刷得足够多、覆盖的场景足够广,真实环境里的活都见过了练过了,效果未必不行,怕的是那种只针对评测集做优化,换个场景就现原形的情况。 ** 几个百分点的领先,可能意味着真实的能力差距,也可能只是一台更大的虚拟机。 ** * * * 我是行小招,持续探索 AI 在个人生活和企业落地中的应用场景,欢迎一起聊聊。 > 交给 AI 的是任务,留给自己的是思考,当 90% 的内容都在沦为噪音,真正稀缺的是:深度阅读,独立思考,持续实践。