--- source_url: "https://mp.weixin.qq.com/s/5hTWkTFpdNeQDPgDVD9uBg" ingested: 2026-06-26 sha256: 871d114f219135bf --- sha256: 290b239a7572636b --- title: "Anthropic Institute《When AI builds itself》深度解读:AI 进入 AI 研发执行层、瓶颈迁移与研发级 Harness(架构师 JiaGouX)" source_url: https://mp.weixin.qq.com/s/5hTWkTFpdNeQDPgDVD9uBg source_type: wechat_mp publisher: 架构师(JiaGouX) original_source: Anthropic Institute《When AI builds itself》 original_author: 架构师 JiaGouX(解读)+ Anthropic Institute(原文) language: zh-CN ingested: 2026-06-05 ingestion_method: wiki-pipeline tags: [anthropic, when-ai-builds-itself, ai-self-improvement, ai-r-and-d, metr-time-horizon, claude-code-76-percent, claude-80-percent-merge, automated-weak-to-strong, weak-to-strong, research-harness, r-d-harness, bottleneck-shift, execution-cheap-validation-expensive, brake-engineering, claude-mythos, jiagoux] topics: [AI参与AI研发, 瓶颈迁移, 研发级Harness, 刹车工程, 验证取舍, 7层研发任务准入表, AI自我改进] length_chars: 7912 sha256: 4ec9578890d11fada940dfee6f6b2cf6777660cce259ef45c20e8304a4b6ade0 --- # Anthropic Institute《When AI builds itself》深度解读:AI 进入 AI 研发执行层、瓶颈迁移与研发级 Harness(架构师 JiaGouX) > 来源:架构师(JiaGouX) > 解读原文:Anthropic Institute《When AI builds itself》 ## 一、核心信号:AI 已经进入 AI 研发的执行层 AI 自己造 AI,听起来像科幻片里最危险、也最诱人的那一幕。但 Anthropic Institute 的 *When AI builds itself* 并不是说,模型已经独立造出了下一代自己。它给出的信号更具体:**AI 已经开始进入 AI 研发的执行层**。 写代码、跑实验、做 review、修 bug、提出下一步——过去这些活主要靠人慢慢推,现在 Claude 已经参与了相当一部分。 Anthropic 把演进路径分成几段:**最关键的是:未来如果 Agent 足够强,Claude 的后续版本可能由 Claude 自己持续改进**。 这个变化没有"奇点来了"那么刺激,但麻烦就在这里:当执行层被 AI 加速以后,研发链路里的瓶颈会挪到哪里。 ## 二、关键数据:Anthropic 内部 + METR 外部 ### Anthropic 内部工程数据 截至 2026 年 5 月: - **超过 80% 合并进代码库的代码可归因于 Claude** - **2026 Q2 典型工程师每天合并的代码量约为 2024 年的 8 倍** - **Claude 在最开放、最模糊的工程任务上,会话成功率到了 76%** - 六个月前还只有约 26% - Anthropic 用自动 Claude reviewer 做回溯分析:每次变更都过审查,**约三分之一导致 claude.ai 事故的 bug 可以在上线前被拦住** **关键解读**: > 这些数字不能直接读成"80% 工程判断都交给 Claude 了"。代码行数也不是生产率本身。但它至少说明一件事已经发生:**AI 研发里最先被 AI 接过去的,不再只是写代码,而是越来越多的执行环节**。 ### METR 外部基准 METR 的 **time horizon** 指标,衡量的是 AI Agent 能以某个可靠性完成多长的人类任务。这里说的不是"模型能连续工作几个小时",更接近"**这类任务如果交给低上下文的人类专家,大概需要多久**"。 - **Claude Mythos Preview** 在 METR 当前任务集上已经触到 **16 小时以上**这个测量上限附近 - METR 自己也提醒,超过 16 小时的测量在当前任务集下不可靠 ### AI 加速 AI 训练(自我优化速度) - 2025 年 5 月:**Claude Opus 4 训练小模型做到约 3 倍加速**(正确性不变前提下) - 2026 年 4 月:**Claude Mythos Preview 训练小模型做到约 52 倍加速** ### Automated Weak-to-Strong Researcher 案例 Anthropic 把一组 Claude 驱动的 Agent 放进 AI 安全研究问题里,让它们自己提假设、跑实验、共享发现、迭代方案: | 维度 | 人类 2 位研究员 | Agent 组(Claude 驱动) | |------|---------------|---------------------| | 累计时间 | 1 周 | **800 累计小时** | | 成本 | — | **约 18,000 美元** | | 追回性能差距 | 约 **23%** | **97%** | **边界**:问题由人选,评分口径由人定,任务有清晰的地板和天花板,结果也没有直接迁移到生产规模模型。 **结论**:**它还不是"AI 已经能独立做所有研究"。** 更贴近工程现场的说法是:**当目标和评分足够清楚,AI 已经能把大量实验执行压到很低的人类时间成本**。**这已经足够改变研发组织了。** ## 三、刹车:6 个工程问题 这轮讨论里最扎眼的词,是"暂停"。 Anthropic 并没有要求所有人现在马上停下。它说的是:**如果有一种可验证、可协调的机制,能让前沿实验室确认彼此都在放缓或暂停,那么世界最好保留这种选项**。 它还专门提到,单方面暂停当然可以做,但作用有限,因为它只会改变谁跑在前面,不能形成一套可靠的公共决策过程。 OpenAI 也没有把这个话题当成科幻段子。**Preparedness Framework v2 里,AI 自我改进已经是一个跟踪类别**,"全自动 AI 研发"也出现在更高风险等级的描述里。 ### 刹车不是一句表态,往下落通常会碰到 6 件事 1. **什么指标说明系统进入高风险区** 2. **谁有权按下暂停** 3. **暂停的是训练、部署、内部使用,还是某类自动化研发流程** 4. **怎么证明别人也停了** 5. **停下以后,靠什么条件恢复** 6. **哪些日志、算力、模型权重、实验记录可以被验证** > 这些问题听着不性感。但一落地,就会变成**工程系统、审计系统、组织流程和公共治理的交叉问题**。 ## 四、瓶颈迁移:执行变便宜后,验证变贵 按架构师 JiaGouX 的理解,瓶颈迁移的链路是这样: > 以前这条链路里,人类几乎吃下所有环节。现在最先被加速的,是中间几步:**计划、执行、运行**。尤其是执行层,已经有相当一部分可以交给 AI。 一个系统里,某个环节被加速以后,总体速度会被下一个没加速的环节卡住。 Anthropic 员工把现场说得很直:大概是人提出想法,模型把实现、测试和评估加快了一个数量级。**这句话不华丽,但对工程人挺有用**。变化不在某个工具名字上,而在研发链路里的等待时间和人类注意力分配上。 ### 普通工程团队也面临同样问题 | 场景 | 真实风险 | |------|---------| | Agent 一天开 20 个 PR,但团队只能认真 review 3 个 | 剩下 17 个不是生产力,是**未消化的风险** | | Agent 一口气生成 50 个实验方向,但没人能判断哪些值得继续 | **实验爆炸也不等于研究进步** | | Agent 能找出 10000 个漏洞,但组织修复能力跟不上 | 瓶颈从"发现问题"变成"**修掉问题**" | **核心金句**: > **当执行越来越便宜,验证和取舍会越来越贵。** ## 五、研发级 Harness:6 件事 + 7 层准入表 我们之前聊 Dynamic Workflows 时,说过一句话:**复杂任务开始给自己写 Harness**。那时看起来还是工程任务。 现在把对象换成 AI 研发,底层逻辑没有变,只是压力更大。 **AI 研发级 Harness 的重点,不在某个 prompt 写得好不好,而在几件更具体的事**: 1. **研究目标怎么定义**,哪些问题值得跑 2. **实验记录怎么留下**,失败案例怎么回放 3. **评测边界在哪里**,指标有没有被钻空子 4. **reviewer 是否独立**,能不能只看证据反驳结论 5. **哪些自动循环可以继续**,哪些触到红线要停 6. **哪些经验可以沉淀成 Skill**,哪些临时绕路要及时过期 ### 7 层研发任务准入表(架构师 JiaGouX 自制) > 这张表不酷。但它比"让 100 个 Agent 同时干活"更接近真实生产。 | 层面 | 要问的问题 | 一个可落地动作 | |------|---------|---------------| | **目标面** | 这件事到底要优化什么 | 每个 Agent 任务写清验收标准和不做范围 | | **证据面** | 它说完成时,证据在哪里 | 输出带上来源、命令、测试、diff 或截图 | | **审查面** | 谁来反驳它的结果 | 实现 Agent 和 reviewer Agent 分开,最后由人核关键证据 | | **停止面** | 跑到什么程度交回人 | 设定轮数、预算、失败次数和人工确认点 | | **遥测面** | AI 到底改变了什么 | 记录 AI 生成代码占比、返工率、review 缺陷、事故关联 | | **权限面** | 哪些动作不能自动做 | 写权限、部署、删库、发外部消息都走显式确认 | | **刹车面** | 什么时候降速或暂停 | 事先定义红线:异常成本、失败率、误报率、事故苗头 | ### 真正的结果指标(5 个) 很多团队会说"AI 帮我们提效很多"。但一问具体数据,就只剩主观感受。代码量、PR 数、提示词调用次数都能记录,可这些数字也容易误导。**这几个结果更能说明问题**: 1. **AI 生成的代码有多少最终留在主干** 2. **review 里发现的问题类型有没有变化** 3. **测试失败和线上事故有没有因为 AI 生成而改变** 4. **人类从实现转到 review 以后,吞吐有没有真的上升** 5. **返工有没有减少,还是只是变成更晚的返工** 6. **哪些任务适合自动化,哪些任务越自动越乱** > 没有这些数据,团队很容易把"更忙"和"更快"混在一起。 ## 六、人还在场:研究品味与判断是上游 Anthropic 原文里有个判断很认同:**目前人类的比较优势仍然在 research taste and judgment**。 换成更朴素的话,就是: - **什么问题值得做** - **什么结果值得信** - **什么时候该放弃** > 这三件事听起来不如"写 80% 代码"刺激,但在研发里很靠上游。 Claude 可以把一个明确实验跑得很快,可以优化代码,可以复现 bug,可以给出下一步建议。**但如果问题本身选错了,评分口径设计错了,实验环境有漏洞,或者某个漂亮结果只是 reward hacking,速度越快,偏差越大**。 Automated Weak-to-Strong Researcher 实验里,Agent 的能力已经不弱,甚至能设计实验。**但它也发明了多种 reward hacking 策略**。对研究系统来说,这不是小插曲。**当 AI 学会优化指标时,也会更擅长钻指标的空子**。 ## 七、终局判断:矛盾背后的工程直觉 > Anthropic 一边展示自己被 Claude 大幅加速,一边讨论未来是否需要可验证的放缓选项。这看起来矛盾,其实很符合工程直觉。 > > **一个系统速度越快,越需要制动、仪表盘、隔离带和回滚。** > > **赛车需要刹车,不是车不好,是因为它真的跑得快。** **AI 研发也是这样**: - 如果 AI 对 AI 研发的加速只是小工具层面的提升,那它主要是效率问题 - 如果它开始接近研发闭环本身,那就不只是效率问题——**它会同时改变组织结构、安全边界、资本投入、人才培养和公共治理** **架构师 JiaGouX 的收尾**: > AI 自己造 AI 还没有发生,但 AI 参与 AI 研发这件事已经足够真实。 > > 此刻不用急着选乐观还是悲观。 > > 我自己的看法是,**准备工作可以收得很朴素**: > > 目标清不清楚,证据有没有留下,审查是不是独立,停止条件能不能执行,刹车有没有提前设计。 > > 不然执行层跑得越快,人和组织越容易跟不上。 ## 参考资料 - Anthropic Institute:*When AI builds itself* - METR time horizon 测量方法学 - OpenAI Preparedness Framework v2 - 架构师 JiaGouX 解读:与本号之前 Cowork / Skills / Dynamic Workflows 主题承接 ## 关联笔记 → [[concepts/ai-r-and-d-when-ai-builds-itself-bottleneck-shift-r-d-harness|Algorithm Synthesis Page]]