---
title: Anthropic 联创：2028 年实现 AI 自我构建的概率超过 60%
source_url: https://mp.weixin.qq.com/s/QldTWr5MFRYLagfBmzpWOQ
publish_date: 2026-05-10
tags: [wechat, article, claude, openai, gpt, deepseek, agent, llm, gemini]
review_value: 7
review_confidence: 7
review_recommendation: neutral
sha256: 1573b75dacb6d7014de16fbde74228ef21487a8b64ef262c0e284c1a3ebc1d79
---
---
source: wechat
source_url: https://mp.weixin.qq.com/s/QldTWr5MFRYLagfBmzpWOQ
ingested: 2026-05-09
feed_name: AGI Hunt
wechat_mp_fakeid: MP_WXS_3087832081
source_published: 2026-05-05
---
# Anthropic 联创：2028 年实现 AI 自我构建的概率超过 60%
Anthropic 联合创始人 Jack Clark 今天发了一篇重磅长文，声称：  ** AI 系统自己迭代改造自己，可能就在两年后。  **
** **
他花了几周时间，翻遍了上百个公开数据源，最后给出了一个概率：到 2028 年底，AI 实现端到端自动化研发的概率，  已经  ** 超过 60%。  **
> “  我现在相信，我们正生活在 AI 研究将被端到端自动化的时代。 
Import AI 455 
这篇文章发在他的 Newsletter「Import AI」第 455 期，标题直接挑明了主题：  ** AI 系统即将开始自我构建。  **   
并且他声称，所有结论完全基于公开可查的资料，没有动用 Anthropic 内部信息。 
那么，他到底看到什么  了  呢？ 
01 
##  拿下代码 
SWE-Bench 是衡量 AI 解决真实 GitHub issue 的标准测试。2023 年底，Claude 2 的得分大约 2%。现在，Claude Mythos Preview 达到了  ** 93.9%  ** ，几乎接近饱和。 
Clark 写道： 
> “  所有分辨率上，图表都在一路向右上角飞。 
METR 追踪的是另一个维度：AI 能自主工作多长时间。这条曲线比 SWE-Bench 还陡： 
•  2022 年：GPT 3.5 能独立工作约 30 秒 
•  2023 年：GPT-4 能撑 4 分钟 
•  2024 年：o1 能撑 40 分钟 
•  2025 年：GPT 5.2 约 6 小时 
•  2026 年：Opus 4.6 约 12 小时 
•  预计 2026 年底：约 100 小时 
从 30 秒到 100 小时。相当于……从帮你查个单词，到替你扛一整个项目周期了。 
30s  GPT-3.5  ?  4min  GPT-4  40min  o1  6h  GPT 5.2  12h  Opus 4.6  100h  ???  ...  30 秒 → 100 小时  点击看 AI 能力阶梯 
Clark 指出，委托工作给别人需要两个前提：  相信对方的能力，以及相信对方能在不被盯着的情况下按你的意思干活  。 
而这两条，AI 正在同时满足。 
对于 AI 研究者的日常，如果仔细拆解，大量任务其实就是几个小时的体力活：  清洗数据  、  读论文  、  跑实验  、  调参数  。这些活儿现在已经落在 AI 独立工作时长的范围内了。 
工程师和研究员正在把越来越大块、越来越重要的工作交给 AI 来做。 
不过 Clark 也提了个重要的注意事项：单个 benchmark 都有缺陷，比如 ImageNet 本身就有约 6% 的标注错误率。他说自己的方法是  拼马赛克，看整体趋势  。 
02 
##  攻克科研 
CORE-Bench 测的是一项非常实际的能力：  给一篇论文，把它完整复现出来。装环境、跑代码、验证结果，全流程自动完成  。 
2024 年 9 月发布时 GPT-4o 得分约 21.5%，到 2025 年 12 月 Opus 4.5 拿了  ** 95.5%  ** 。 
CORE-Bench 进展 
做研究的人应该都有体会，大量时间花在理解和复现别人的成果上。这一步一旦自动化，对整个研发效率的杠杆效应是巨大的。 
MLE-Bench 进展 
MLE-Bench 则从 75 个真实 Kaggle 竞赛中抽取任务，衡量完整的 ML 工程能力：数据清洗、特征工程、模型选择、调参、提交。 
2024 年 10 月 o1 得分 16.9%，到 2026 年 2 月 Gemini3 达到了  ** 64.4%  ** 。 
再往底层走则是：kernel 优化，也就是把矩阵乘法之类的运算高效映射到 GPU 硬件上，这直接决定了训练和推理的效率。训练一个模型能用多少算力，训好之后推理有多快，全看 kernel 写得好不好。 
这个领域也正在变成 AI 的竞技场。 
DeepSeek 在做 GPU kernel 构建模型，Meta 用 LLM 自动生成优化过的 Triton kernel，字节跳动做了「Cuda Agent」，华为做了「AscendCraft」为昇腾芯片写 kernel。 
kernel 还有个特点让它特别适合 AI 来做：  结果很容易验证，跑得快不快，一测便知  。 
在前沿数学领域，也已经出现了 AI 参与的痕迹。 
英属哥伦比亚大学、斯坦福和 DeepMind 的研究者合作发表了一个新的数学证明，论文中写的是：「  主要结果的证明是在 Google Gemini 及相关工具的大量参与下发现的。  」 
这，算不算 AI 有了创造力？Clark 认为还不好判断，也许数学和计算机科学恰好是 AI 擅长的领域，不一定能推广。 
03 
##  自我训练 
一个极为为核心的问题是：  AI 能不能自行训练 AI？ 
PostTrainBench 进展 
PostTrainBench 测的是让强模型自主地对弱模型做后训练微调，目标模型包括 Qwen 3、SmolLM3、Gemma 3 等开源模型。 
人类基线（即这些模型官方 instruct 版本的水平，由各家顶级工程师精心调教）能实现约  ** 51%  ** 的性能提升，当前最强的 AI 系统（Opus 4.6 和 GPT 5.4）能做到  ** 25-28%  ** ，到了人类水平的一半左右。 
Anthropic 自己内部的数据，可能更能说明问题。他们用 AI 来优化 LLM 训练过程本身： 
•  2025 年 5 月：Opus 4 实现 2.9 倍加速 
•  2025 年 11 月：Opus 4.5 实现 16.5 倍加速 
•  2026 年 2 月：Opus 4.6 实现 30 倍加速 
•  2026 年 4 月：Mythos Preview 实现  ** 52 倍加速  **
人类工程师花 4-8 小时大约能做到 4 倍。这条曲线，就已经算得上是「递归自我改进」的雏形了。 
训练  优化  进化  递归  self-improving loop  ?  AI v1  AI v2  AI v3  v4?  !  "还在加速……"  2.9x ··· 52x 
在前沿研究方面，Anthropic 用 AI Agent 团队做了一个对齐研究的概念验证项目：给一组 AI Agent 指定一个研究方向（可扩展监督），让它们自主设计方案。结果 AI 方案  ** 击败了 Anthropic 自己设计的基线  ** 。 
虽然规模还很小，但 Clark 说，上面提到的每一个 benchmark 在早期都是这个样子：  先看到生命迹象，然后几个月到一年内就会爆发  。 
Google Gemini 的一个团队，则尝试用模型攻克数学难题。他们让 Gemini 挑战了约 700 个 Erdős 猜想，产出了 13 个解，其中  ** 1 个被数学家认为有实质意义  ** ，被称为「  AI 系统自主解决一个非平凡开放 Erdős 问题的早期案例  」。 
04 
##  自我管理 
Claude Code 和 OpenCode 等工具已经支持单个 AI Agent 管理多个子 Agent，并行分配任务、协调工作。 
一个 AI 带着一群 AI 干活，形态上跟人类的项目经理非常接近了。这意味着 AI 研发中不仅「干活」可以自动化，连「管理干活」也开始可以了。中层管理们的活，也可以被 AI 接管了： [ AI 正在杀死中层管理 ](<https://mp.weixin.qq.com/s?__biz=MzA4NzgzMjA4MQ==&mid=2453482415&idx=1&sn=93a2d851f5010e771e68ebcd07c2b1c0&scene=21#wechat_redirect>)
AI MANAGER  AI 经理  AI MANAGER  AI 经理  项目管理  调参  第3轮了…  debug  bug在哪…  { }  //  写代码  收到，写  跑实验  报告！  轻触播放 
Clark 透露，Anthropic 内部已经在实际使用这种模式进行部分研发工作。 
05 
##  积木 or 相对论 
Clark 提了一个关键问题：  ** AI 研究，到底更像搭积木，还是更像发现相对论？  **
如果是后者（需要从无到有的天才洞见）那 AI 自动化研发的前景就很渺茫。但 Clark 认为是前者。 
AI 领域偶尔会出现范式级的突破，比如 Transformer 架构、混合专家模型（MoE）。但绝大多数时候，领域的推进靠的是一个无聊的循环：  拿一个跑得还行的系统，加大规模，看哪里崩了，修好，再加大  。 
反复如此。 
Clark 引用了爱迪生的名言： 
> “  天才是 1% 的灵感加 99% 的汗水。 
这 99% 的汗水，Clark 称之为「schlep」（苦差事）：  扩大规模  、  系统性调参  、  永无止境的 debug 和优化  。 
但这些，也正恰恰是 AI 已经擅长的。 
1% 灵感  99% 汗水  1% INSPIRATION + 99% PERSPIRATION  99% 的苦活，AI 包了  1% 灵感  99% 汗水  包在我身上  点击上色 → 
把把所有证据拼在一起后，Clark 给出了四条总结： 
1\.  AI 已经能写几乎任何程序，并且可以独立完成一个人需要几十小时才能做完的任务 
2\.  AI 在微调、kernel 优化等 AI 研发的核心技能上越来越强 
3\.  AI 可以管理其他 AI，组建合成团队分工协作 
4\.  AI 在某些硬核工程和科研任务上已经能胜过人类，虽然还不确定这算创造力还是超强的模式匹配 
他的结论是：  AI 已经可以自动化 AI  ** 工程  ** 的绝大部分，甚至全部  。 
至于 AI  ** 研究  ** 中那些需要创造力的部分，目前还不确定。但即便 AI 完全没有创造力，光靠自动化苦力活这一点，也足以自己把自己往前推很远。 
06 
##  假如成真 
Clark 也讨论了「如果成真」，这将意味着什么。他写到会有三个后果： 
** 第一，对齐问题会被指数放大。  **   
今天的对齐技术在递归系统中会不断衰减。假设每一代 AI 的对齐准确率是 99.9%，50 代之后衰减到 95.12%，500 代之后只剩 60.5%。 
而且 AI 已经知道自己什么时候在被测试，这让「假装对齐」变得更容易。 
99.9%  稳如磐石  第 1 代  60.5%  !  怎么会……  第 500 代  轻触播放 
** 第二，生产力倍增器带来分配问题。  **   
AI 对软件工程师的加速效应，会复制到它触及的所有领域。但如果 AI 算力的需求持续超过供给，谁能优先用上 AI，就成了一个政治问题。 
Clark 还提到了一个「经济的阿姆达尔定律」：  当 AI 加速了数字世界的运转，物理世界中的瓶颈就会暴露出来  。比如新药的临床试验，再快的 AI 也不能加速人体的生物反应。 
** 第三，一个资本密集、劳动力稀薄的「机器经济」正在浮现。  **   
越来越多的公司可能变成这样：  拥有大量算力（或购买大量 AI 服务），但雇员很少  。因为花更多钱在 AI 上比雇更多人更划算，而且这个差距在持续扩大。 
Clark 甚至预测，最终可能出现完全由 AI 运营的自主公司，它们之间相互交易，形成一个在人类经济体内部生长的「机器经济」。 
07 
##  时间线 
Clark 给出的概率分布时间线是： 
•  到  ** 2027 年底  ** ：30% 概率实现 AI 自动化研发 
•  到  ** 2028 年底  ** ：60% 概率 
•  如果 2028 年底还没实现，说明存在某种根本性的技术瓶颈 
而且，Clark 表示  不只自己  一个人这么想。 
OpenAI 宣布目标在 2026 年 9 月前实现「 [ 自动化 AI 研究实习生 ](<https://mp.weixin.qq.com/s?__biz=MzA4NzgzMjA4MQ==&mid=2453482672&idx=1&sn=a866f8b561c5cd32f0a0faa3a6e7da15&scene=21#wechat_redirect>) 」，DeepMind 表态「对齐研究的自动化应在可行时推进」。 
创业公司 Recursive Superintelligence 拿到了 5 亿美元融资，Mirendil 专注 AI 研发自动化。 
数百亿美元的资本，正在涌向这一个目标。 
08 
##  老黄和陶哲轩 
不过，也不是所有人都信这个叙事。 
过去一年，Anthropic 高层的公开预测一路升级：  AI 能写 90% 代码  、  AI 将取代大量白领岗位  ，现在又到了「  AI 两年内自我构建  」…… 
而老黄前几天，也刚在 SCSP 播客上直接开炮（ [ 黄仁勋炮轰 Anthropic CEO：散布恐慌，不知怎么当上的 CEO ](<https://mp.weixin.qq.com/s?__biz=MzA4NzgzMjA4MQ==&mid=2453483391&idx=1&sn=aa36c24c93036825b8786dd5e7b6d6bc&scene=21#wechat_redirect>) ），算是谴责了这类不断加码的言论： 
> “  太荒谬了。这些评论毫无帮助。 
> 
> 说服所有年轻的大学毕业生不要学软件工程，这也是有害的，因为我们将需要比以往更多的软件工程师。 
他表示，AI 公司高管反复散布「AI 即将取代一切」的恐慌言论，对社会毫无益处。而 Clark 这篇文章，正是这个叙事的最新一环，只不过把「  取代程序员  」更进一步升级成了「  取代 AI 研究本身  」。 
Fields 奖得主陶哲轩，则在访谈中从另一个角度进行切入。 
已关注 
__
关注 
__ 重播  __ 分享  __ 赞 
关闭 __
**观看更多**
更多 __
__
__
__
_退出全屏_
[ __ ](<>)
_切换到竖屏全屏_ _退出全屏_
AGI Hunt  已关注 
[ __ ](<>)
分享视频 
__ ，时长  00:34 
0  /  0 
00:00  /  00:34 
切换到横屏模式 
继续播放 
进度条，百分之0 
__
[ 播放 ](<>)
00:00 
/ 
00:34 
00:34 
_全屏_
__ 倍速播放中 
[ 0.5倍 ](<>) [ 0.75倍 ](<>) [ 1.0倍 ](<>) [ 1.5倍 ](<>) [ 2.0倍 ](<>)
[ 超清 ](<>) [ 流畅 ](<>)
您的浏览器不支持 video 标签 
__
继续观看 
Anthropic 联创：2028 年实现 AI 自我构建的概率超过 60% 
观看更多 __
转载 
, 
Anthropic 联创：2028 年实现 AI 自我构建的概率超过 60% 
__
AGI Hunt  已关注 
分享  点赞  在看 
__ __ 已同步到看一看 [ 写下你的评论 ](<>)
__
[ 视频详情 ](<>)
他看了看 AI 行业的财务模型，结论是：  ** 这笔账，算不过来。  **
> “  现在 AI 大公司的商业模式，依赖的是炒作来支撑他们的高估值。他们需要「数万亿美元潜力」这样的承诺。 
> 
> 希望一两年内会有一个更理性的重新估值。 
$T  AI CEO  再大一点  陶哲轩  估值泡沫 vs 数学现实  $B?  AI CEO  陶哲轩  数学不成立  .com  泡沫终会遇见现实  轻触播放 
陶哲轩  把现在的 AI 行业跟 2000 年互联网泡沫做了类比： 
> “  当年人们承诺互联网将改变一切，最终它确实改变了……一些方面改变了很多，另一些方面则没那么大变化。 
09 
##  为了融资？ 
黄仁勋和陶哲轩的批评，指向了同一个问题：  ** 这些惊人的预测，到底是诚实的判断，还是在服务融资叙事？  **
而回头看 Anthropic 高层过去一年的公开言论，会发现一个规律： 
说 AI 能写 90% 的代码？投资人听了觉得技术确实强。 
说 AI 会消灭 50% 的白领岗位？那更得赶紧投，谁不想站在颠覆者这一边。 
说 AI 有 20% 概率毁灭人类？那更要投了，因为 Anthropic 号称最注重安全，投它就是买保险。 
PROPHECY FUNNEL  90% 代码  技术强  50% 白领  赶紧投颠覆者  20% 毁灭  投安全 = 买保险  自我构建  终极 pitch  $  $  $  $  $  → 融资  "请给更多钱"  每条预言都指向同一方向  轻触播放 
现在再加一条：  AI 将在两年内完成自我构建。 
** 每一条预言，都精准地指向了同一个方向：请给 Anthropic 更多的钱。  **
而 Clark 这篇声称 AI 两年内实现自我构建的文章，恰恰发表在 Anthropic 刚刚完成新一轮融资之后。 
2026 NOW  2030 ???  ?  ?  ?  ?  ?  2026  我们在这  2027  Clark  30%  2028  Clark  60%  2029  ?  2030  ?  Clark  看好 2028  黄仁勋  荒谬  陶哲轩  ≠  26  27  28  29  30  按住看未来 → 
Clark 说  60% 的可能性实现自我迭代  ，黄仁勋说「  散布恐慌  」，陶哲轩说「  泡沫  」。三个人，不同的判断。 
** 2028，还有两年。你，更相信谁呢？  **
◇ ◆ ◇ 
相关链接： 
•  Import AI 455 原文：https://importai.substack.com/p/import-ai-455-automating-ai-research 
•  Jack Clark 推文：https://x.com/jackclarkSF/status/2051312759594471886 
•  黄仁勋 SCSP 播客：https://x.com/firstadopter/status/2050225746753331562