---
title: 国产顶尖模型 benchmark 评分那么高，可实际效果为什么差？看完 Anthropic 这篇博客，刷分的因素太单一了
source_url: https://mp.weixin.qq.com/s/asGfEOjxrZq8sNaPXSySfQ
publish_date: 2026-05-10
tags: [wechat, article, claude, agent]
review_value: 7
review_confidence: 7
review_recommendation: neutral
sha256: 7701a7a69e8f312669cbfe21cf58aa382689bb4bae18548ebf29871589b1041d
---
---
source: wechat
source_url: https://mp.weixin.qq.com/s/asGfEOjxrZq8sNaPXSySfQ
ingested: 2026-05-09
feed_name: 科技充电站
wechat_mp_fakeid: MP_WXS_3237134318
source_published: 2026-03-12
---
# 国产顶尖模型 benchmark 评分那么高，可实际效果为什么差？看完 Anthropic 这篇博客，刷分的因素太单一了
> AI 时代，有两种行为： 
> 
> 一种，活在别人的评测里，把模型的强当自己的强，痴人说梦； 
> 
> 另一种，活在真实的实战里，用最顶级的 AI，武装自己。 
> 
> 前者在噪音里坐享"技术平权"，后者在疼痛中完成"自我进化"。 
朋友们好，我是行小招。 
Anthropic 刚发了一篇工程博客，用实验数据回答了一个我一直想不通的问题：为什么排行榜上的模型分数那么好看，我自己用起来就是差那么一截？ 
原文链接：https://www.anthropic.com/engineering/infrastructure-noise 
Anthropic 在 Terminal-Bench 2.0 上做了一组对照实验，控制变量做到了极致：同一个 Claude 模型、同一套评测框架、同一组任务、同样的参数，唯一变化的是容器的资源配置，也就是给多少内存、CPU 和网络带宽。 
结果？资源最充裕和最紧张的配置之间，分数差了 6 个百分点，统计显著性 p < 0.01。 
6 个点是什么概念？现在排行榜上头部模型之间的差距，经常也就两三个点。 
光是换一台机器跑，分数波动就可能比"模型 A 比模型 B 强"的那个差距还大。 
** 排行榜上 6 个点的领先，可能不是模型强，是机器好  **
##  为什么机器配置能影响这么大 
传统 benchmark 很简单：给模型一个问题，模型输出答案，打分，运行环境不参与评分过程。 
但 Agent 编程评测完全不同。模型拿到的是一个完整的运行环境，它要在里面写代码、跑测试、装依赖、多轮迭代，容器不再是一个被动的盒子，而是解题过程的一部分。 
举个具体例子，Terminal-Bench 里有个叫 bn-fit-modify 的任务，需要做贝叶斯网络拟合。有些模型上来第一步就装 pandas、networkx、scikit-learn 全家桶，资源充裕的时候装完直接干活没问题，资源卡着给的时候 Pod 在 pip install 过程中内存超了直接被 kill，一行解题代码都没写出来。不是模型不会做，是机器不让做。 
** 两个资源预算不同的 Agent，根本就不是在做同一张试卷  **
##  3 倍是个分水岭 
Anthropic 测了六种资源配置，从严格按规格给（1x）到完全不设上限，结果很有意思，大致分两个阶段。 
从 1x 到 3x：基础设施错误率从 5.8% 降到 2.1%（p < 0.001），但成功率的提升很小，处于统计噪声区间（p=0.40）。1x 下崩溃的那些任务大多数本来就不会成功，Agent 在瞎转的时候撞上了资源墙被杀掉了，但它本来就没走在通往正确解的路上。 
从 3x 到不设上限：成功率跳升了近 4 个百分点，远超错误率下降的幅度。额外资源真正帮 Agent 解开了之前解不了的题，比如拉取大型依赖包、启动高开销子进程、跑内存密集型测试套件。 
3x 以内修的是"冤假错案"，3x 以上给的是"真实助力"。 
** 资源限制不只影响稳定性，它直接改变了评测在测什么  **
##  你的机器不是人家的机器 
这个发现放到日常使用场景里就更有意思了。 
排行榜上的跑分环境是精心调过的，Terminal-Bench 官方用的沙箱允许临时超额分配而不终止容器，相当于给了隐性的 buffer。而 Anthropic 自己在 Kubernetes 上跑的时候，把保证分配和硬杀阈值设成一样的值，结果 6% 的任务因为 Pod 错误直接失败，跟模型能力毫无关系。 
我们自己用的时候呢？CPU、内存、网络条件都是随机的，可能还同时跑着一堆别的东西，你的环境跟人家跑分的环境，差距可能比 1x 和 3x 还大。 
这就解释了那个经典困惑：为什么 benchmark 上某个模型遥遥领先，我用起来感觉也就那样？你看到的分数是在最优基础设施上跑出来的，而你的体感是在你自己那台机器上产生的。 
** "模型能力"和"基础设施行为"之间的边界，远比一个分数暗示的要模糊  **
##  几个百分点，也许只是一台更大的虚拟机 
Anthropic 这篇文章的结论很克制：排行榜上 3 个百分点以内的差距值得保持怀疑，除非评测配置被记录在案且保持一致。 
他们在 SWE-bench 上也做了交叉验证，效应方向一致但幅度更小，5 倍资源下仅高 1.54 个百分点，符合预期，因为 SWE-bench 任务的资源需求本来就低一些。 
个人感觉，Anthropic 的评测一直比较克制，公布的分数和自己实际使用的体感相差不多。反观有些模型，排行榜上看着猛，用起来总觉得差点意思，到底是模型能力的差距还是跑分环境的差距，现在多了一个可以量化的解释维度。 
刷分是业内公开的秘密，但话说回来，如果刷得足够多、覆盖的场景足够广，真实环境里的活都见过了练过了，效果未必不行，怕的是那种只针对评测集做优化，换个场景就现原形的情况。 
** 几个百分点的领先，可能意味着真实的能力差距，也可能只是一台更大的虚拟机。  **
* * *
我是行小招，持续探索 AI 在个人生活和企业落地中的应用场景，欢迎一起聊聊。 
> 交给 AI 的是任务，留给自己的是思考，当 90% 的内容都在沦为噪音，真正稀缺的是：深度阅读，独立思考，持续实践。