---
title: "OpenAI科学家Noam Brown：AI的真正上限，可能根本没人测得起"
created: 2026-06-09
updated: 2026-06-09
type: article
source_url: "https://mp.weixin.qq.com/s/zHiPUI6oCTRxPr3JqYhidg"
ingested: 2026-06-09
sha256: "noam_brown_ai_evaluation_2026"
review_value: 8
review_confidence: 9
---

> 来源：机器之心
> 作者：机器之心编辑部
> 原文链接：https://x.com/polynoamial/status/2064210146558136827

## 摘要

OpenAI 研究员 Noam Brown 提出：大模型的表现不仅取决于模型本身，也越来越取决于模型在推理阶段获得了多少计算资源。未来评估模型时，不能只问"模型得了多少分"，还应回答：模型是在消耗多少 token、多少费用和多长运行时间的前提下，获得这一成绩的？

## 一、新模型的能力差距，可能被传统成绩表低估

Brown 以 GPT-5.5 发布后的市场反应为例说明传统模型排行榜的局限性。按照他的描述，GPT-5.5 发布初期外界首先注意到的是一组并不算特别显眼的基准测试成绩。与 GPT-5.4 相比，新模型的分数有所提高，但从常规成绩表看提升幅度似乎有限。

但在模型开放使用后的数小时内，随着开发者和研究人员开始测试更复杂的任务，发现 GPT-5.5 在长链条推理、持续执行和复杂问题处理方面表现出更加明显的代际差异。这种"实际体验明显增强、榜单分数却变化有限"的现象，反映出传统评测没有完整呈现模型能力。

问题在于，不同模型的评测结果未必建立在相同的推理预算之上。在传统评测框架中，研究者往往会为每个模型选择一套能够尽可能提高成绩的测试配置，再将最终分数放入同一张表格。这种方式看似公平，但可能掩盖一个关键变量：某些模型可以在获得更多推理 token、更多调用次数或更长运行时间后，继续显著提升表现；另一些模型则可能较早触及性能上限。

## 二、为什么不能简单地「跑到性能不再提升为止」

一种直观的解决方案是：为每个模型持续增加推理资源，直到其表现进入平台期，再比较各自的最高能力。

Brown 认为，这种思路在实践中未必可行。原因是，对于新一代模型而言，性能平台期可能远比预期更晚出现，甚至在现实可承受的预算范围内难以观测。

他引用了 Andrej Karpathy 发起的自动化研究实验作为例子。在相关实验中，模型持续执行大量试验后，性能仍然保持改善趋势。即使实验次数达到数百次，提升曲线也没有完全趋于平缓。

Brown 同时提到英国人工智能安全研究所（AI Security Institute）的网络安全评测结果。在该评测中，包括 Mythos 和 GPT-5.5 在内的部分模型，在累计使用超过 1 亿 token 后，任务表现仍然继续提高。

这一现象意味着，在复杂任务上，模型能够利用越来越长的运行时间和越来越大的推理预算，持续探索、试错和修正策略。更强的模型不仅起点更高，还可能更擅长将额外计算资源转化为有效能力。

Brown 据此推测，随着模型能力提高，其可有效运行的任务周期也会延长。在某些任务中，所谓"平台期"甚至可能不再是一个容易测量的状态。

## 三、从单一分数转向「性能—成本曲线」

面对这一变化，Brown 建议，模型发布机构应改变基准测试的呈现方式。与其只公布一个最终分数，不如在横轴上标注推理计算量，在纵轴上展示任务表现，绘制完整的性能变化曲线。横轴可以采用 token 数量、推理费用或实际运行时间等指标。

这种方法能够回答传统成绩表难以解释的问题：在相同预算下，哪个模型表现更好？当预算增加十倍时，哪个模型提升更快？模型是否已经接近能力上限？不同模型的成本效益如何变化？

目前，部分基准测试已经开始采用类似方法。Brown 提到，ARC-AGI 等评测已尝试衡量模型分数与运行成本之间的关系，而不是只发布单一成绩。

另一种可行方案，是为评测设定明确的 token、成本或时间限制，并提前将预算信息告知模型。这种方式类似于人类参加标准化考试：无论是 SAT 还是国际数学奥林匹克竞赛，参赛者都需要在固定时间内完成任务。

不过，Brown 同时指出，不同指标都有局限：

- **token 数量**未必能够直接跨模型比较，因为不同模型使用的分词器、生成速度和单位 token 成本可能存在差异
- **费用**受到硬件利用率、批量处理方式和工程实现的影响
- **运行时间**同样不是完美指标，因为多智能体协作或 best-of-N 等技术可以并行生成多个候选答案

尽管如此，他认为，上述指标中的任何一种，都比脱离推理预算的单一分数更具信息量。

## 四、推理预算问题正在延伸至人工智能安全评估

Brown 的讨论并不限于模型排行榜。他认为，推理预算还会直接影响前沿模型的安全治理。

在前沿人工智能模型发布前，研发机构通常会对网络攻击、生物风险、化学风险和其他潜在滥用能力进行评估。如果模型达到某一风险阈值，研发机构可能需要推迟发布，或在部署前增加访问限制、监控机制和其他缓解措施。

问题在于，如果模型能力会随着推理计算量增加而提升，那么安全评估应当使用多大的推理预算？

在现实中，普通用户可能只会为一次任务投入几美元或几十美元。但一个资金充足的组织、专业团队或国家级行为体，可能愿意为单一目标投入远高于普通用户的资源。如果评测机构只在较低预算下测试模型，就可能低估其在高资源条件下的风险能力。

Brown 以 Gemini 3 Deep Think 发布后的争议为例。他指出，Deep Think 的基准测试成绩显著高于此前模型，但发布时没有同步提供针对该版本风险能力的完整系统卡，引发部分 AI 安全研究者批评。

他推测，Deep Think 可能并不是一个完全独立训练的新模型，而是基于其他已有模型构建的一套推理脚手架系统。如果这一判断成立，那么 Deep Think 所展示的部分能力，理论上并非只有平台自身能够实现。外部开发者只要愿意投入足够高的推理费用，也可能通过组合多次模型调用，构建出类似的工作流。

因此，真正值得关注的问题不是某一个产品是否单独发布了系统卡，而是当基础模型最初发布时，研发机构是否已经充分测试了它在不同推理预算和不同脚手架策略下可能达到的能力水平。

## 五、高预算评测难以全面实施，但可以尝试外推

理论上，一个资源充足的行为体可能为单一任务投入超过 1000 万美元的推理成本。但安全评估通常涉及成千上万甚至数百万次测试运行。如果每一次运行都使用极高预算，评测成本将迅速失去可行性。

Brown 提出，可以先在相对可控的推理预算范围内进行测试，再根据模型能力随计算量变化的趋势，对更高预算条件下的表现进行外推。同时，评测机构应明确标注预测区间和不确定性，而不是将推算结果视为确定结论。

不过，他也承认，长周期任务仍然可能带来难以通过短期实验解决的问题。例怂，如果研究者希望判断一个自主智能体在持续运行一年后是否会出现目标偏移、策略欺骗或其他失配行为，那么最可靠的方法可能仍然是让该智能体实际运行足够长的时间。

这将产生一个新的现实矛盾：人工智能模型的开发和发布周期可能只有数月，而智能体能够持续运行的任务周期却可能越来越长。未来，研发机构或许会面临一种特殊情况——新模型还没有完成覆盖其最大运行周期的安全测试，下一代模型就已经接近发布。

## 六、三项建议：让推理预算成为模型评估的基础变量

Brown 提出了三项具体建议：

1. **公布不同推理预算条件下的基准测试表现**：理想情况下，企业应提供以 token 数量、成本或运行时间为横轴的性能曲线。至少，企业需要说明取得某一单点成绩时实际使用了多少推理资源。

2. **基准测试排行榜记录推理资源消耗**：或者为参评模型设定统一的 token、费用或时间上限。

3. **准备度框架和负责任扩展政策应明确考虑推理阶段的计算资源**：当机构判断模型是否跨越某一安全阈值时，不应只考察单一配置下的表现，还应评估多个推理预算水平，并对更高预算条件下的风险能力进行带有不确定性说明的预测。

## 七、结论

Brown 的判断是，未来衡量人工智能能力时，推理预算不应再被视为测试过程中的附属信息，而应像模型规模、训练数据和上下文窗口一样，成为评测报告中的核心参数。

从更广泛的角度看，这也意味着，人工智能行业正在逐步告别「用一个数字定义一个模型」的阶段。真正重要的问题可能不再只是模型能做什么，而是当它获得足够多的时间、资金和计算资源后，究竟可以做到什么程度。