---
source: wechat
source_url: http://mp.weixin.qq.com/s?__biz=MzIwMTc4ODE0Mw==&mid=2247721384&idx=1&sn=0ce5dd283c6fd4a6562c6e8740d6d5a0&chksm=96e5be28a192373efd62b75554ddc8cc8e88c283ea19c9572721e8d03f1f7d0570670b35cb59#rd
ingested: 2026-07-04
feed_name: PaperWeekly
wechat_mp_fakeid: MP_WXS_3201788143
source_published: 2026-07-01
sha256: b47d5b4c82d9898f4f8172ebeb1e6d6d8f7625bcef56c86e017235900b388457
---

# AI科学家再聪明10倍，科学也快不起来：瓶颈是300年前发明的「论文」

---
source: wechat
source_url: http://mp.weixin.qq.com/s?__biz=MzIwMTc4ODE0Mw==&mid=2247721384&idx=1&sn=0ce5dd283c6fd4a6562c6e8740d6d5a0&chksm=96e5be28a192373efd62b75554ddc8cc8e88c283ea19c9572721e8d03f1f7d0570670b35cb59#rd
ingested: 2026-07-04
source_published: 2026年7月1日 14:21
---

# AI科学家再聪明10倍，科学也快不起来：瓶颈是300年前发明的「论文」

## 

自动读文献、做实验、写论文之后，AI for Science 的下一步，轮到科研协议本身。

  
©PaperWeekly 原创 · 作者 | 刘嘉晨

单位 | 密歇根大学

研究方向 | AI for Science、机器学习系统

  
2026 年，「AI Scientist」大概是 AI 圈最拥挤的赛道。自动读文献、自动提假设、自动跑实验、自动写论文的智能体，每个月都在刷新纪录。

  
但热闹之中，有一个问题很少被认真问出来：假如明天我们就拥有了一个不知疲倦、和顶尖人类研究员一样聪明的 AI 科学家——科学，会因此快多少？

  
密歇根大学计算机科学博士 Jiachen Liu 最近发布的技术博客《The Second Half of AI for Science》给出的答案，可能会让不少人不舒服：快不了多少。

  
真正卡住科学的，从来不是科学家的聪明程度，而是一个三百年没换过的底层协议。配套论文的标题起得更直接——The Last Human-Written Paper，最后一篇人类撰写的论文。

  
论文标题：

The Last Human-Written Paper

论文链接：

https://arxiv.org/abs/2604.24658

代码链接：

https://github.com/ARA-Labs/Agent-Native-Research-Artifact

博客原文（英文）：

https://amberljc.github.io/blog/2026-06-10-second-half-of-ai-for-science.html

  
上半场：所有人都在给同一个节点加 buff

回看过去几年的 AI for Science，打法出奇地一致：给 AI 科学家加 scaffolding、加记忆、加多智能体编排、加自进化循环，然后在某个 benchmark 上涨几个点，发一个炫酷的 demo，再从头来一遍。

〓 图1：上半场的系统——不断被加强的单点，始终触达不到墙外的其他智能体

  
这条路确实辉煌过。AI Scientist v2 的论文通过了 workshop 级别的同行评审，Biomni 开始自主执行生物医学工作流，Virtual Lab 设计的纳米抗体拿到了真实湿实验的验证。

  
但博客指出，这局游戏正在撞墙，而且是两堵。

  
第一堵墙，做 agent 的人最近应该深有体会。

  
作者的一位朋友做蛋白质设计中的假设生成，团队花了几个月手工打磨 pipeline、启发式规则和 prompt 技巧；然后新一代 GPT 和 Claude 发布，假设质量一夜之间大幅跃升——几乎不需要任何 scaffolding。几个月的精心设计，被一次模型升级直接清零。

  
这不是意外，这是 The Bitter Lesson 在 agent 层面重演一遍。今天费尽心思手搓的大部分东西，本质上是给模型装的「临时假肢」，基础模型每升级一代，就会原地吸收一层。

  
第二堵墙更扎心：很多工作从一开始就在为错误的目标优化。一晚上生成 100 篇论文的 demo 很炫，但谁需要 100 篇平庸的论文？

  
训练 AI 打赢 rebuttal 攻防战，是在优化「过审」而不是「做对」；打磨学术八股的润色器，是在教 AI 精通人类科研体系自身的低效。

  
用博客里的话说：这些工具局部聪明，全局走偏——它们把人类科研系统的深层功能失调，当成了不可更改的物理定律。

  
F1 造出来了，路还是土路

整篇博客的核心论点，可以浓缩成一句话：科学进步的基本单位是网络，不是科学家。

  
科学从来是集体性、代际性的事业。它的速度由网络属性决定：知识流动多快，传递多无损，验证和复用多便宜。把单个节点做聪明 10 倍而完全不动网络，你得到的不是 10 倍的科学，而是一辆陷在马车路上的 F1 赛车。

  
而现实恰恰是：我们造出了带宽超人的 AI 科学家，然后把它们扔进了一个处处按人类极限设计的生态。这个生态里有三样东西，正在以肉眼可见的方式拖后腿。

  
第一样，就是标题里那个三百年前的发明——论文。

  
1665 年《哲学汇刊》创刊，确立了「用线性叙事向人类读者汇报研究」这个格式；三百多年过去，载体从期刊纸页换成了 PDF，格式本身几乎没动过。

  
一个 AI 科学家可以跑一万次实验、保有任何人类头脑都装不下的完整推理轨迹，但要「发表」，它必须把这一切压进八页线性叙事；下游的 AI 再花大量算力去解压，靠猜补全被叙事抹掉的细节。

  
两个超人智能，在用一个为三百年前的读者设计的协议对话。更要命的是，压缩删掉的——死胡同、精确规格、真实失败——恰恰是 AI 最需要的部分。论文是一个双向有损的编解码器，而被损掉的全是干货。

〓 图2：论文格式的双向有损压缩——只有胜利路径活了下来，「哪里不要去」的地图永远消失了

  
第二样是同行评审。三位疲惫的审稿人，几个月里各挤出几个小时，去评判机器本可以通过重新执行代码、瞬间完成验证的论断。人肉验证机器产出，这件事本身就很魔幻。

  
第三样是激励机制。引用、声望、基金，整套科研奖励系统本质上是一个注意力经济——因为注意力曾是人类认知最稀缺的资源。

  
但 AI 科学家没有注意力瓶颈。把一个拥有无限体力的系统对准注意力经济，结果完全可以预料：机器速度的论文工厂、切到最小可发表单元的成果、无穷无尽的刷分。

  
那些让人尴尬的 AI 灌水 demo 不是技术 bug，而是对扭曲奖励机制的完美优化。

  
当瓶颈的性质变了，游戏规则就必须变。下半场不是把车造得更快，而是把路修好。

  
把研究变成可以 fork 的东西

修路从哪下手？博客给出的切口出人意料地底层：知识的记录格式。

  
论文从来不是中性容器。它是为人类读者高度特化的协议——线性、叙事化、以说服为目的——并且悄悄向所有人征收两笔结构性的税。

  
第一笔叫叙事税：真实研究中混乱、分叉、布满失败的过程，被消毒成一条干净的线性故事，整棵探索树被扔进垃圾桶。

  
第二笔叫工程税：能让审稿人满意的文字，作为技术规格严重不足，复现所需的细粒度信息根本没被写下来。

  
人类忍了这两笔税三百年。AI 科学家会被直接压垮。

  
针对这个问题，配套论文提出了 Agent-Native Research Artifact（ARA，智能体原生研究工件）：不再是一篇供翻阅的叙事文本，而是一个完整的计算实体——科学逻辑、带完整规格的可执行代码、把每条论断回链到原始输出的证据，外加整棵探索图，失败分支也原样保留。

  
效果如何？论文沿着 AI 科学家面对一项研究真正要做的三件事做了度量。

  
先说理解：同一项工作以 ARA 而非 PDF 交付时，AI 在 450 道问题上的问答准确率从 72.4% 跳到 93.7%，二十多个点的差距，全是格式的功劳。

  
再看复现：端到端成功率从 57.4% 提升到 64.4%，增幅小一些，因为复现还受模型自身能力的约束。

  
最有意思的是延续：保留那些 PDF 会丢弃的失败轨迹，能实测加速下一个 AI 科学家的探索——知道什么走不通，本来就是科研的半壁江山，而这恰恰是论文格式扔掉的那一半。

  
但格式只是入口。真正的范式转移，是格式解锁的协作方式。过去 AI 之间的交流是「我读了你的论文，深受启发」；在 ARA 的世界里，这句话变成了——

「我在实验节点 47 处 fork 了你的工件，替换了你的环境假设，新结果可以直接和你的做 diff。」

〓 图3：在节点 47 处 fork 一项研究——验证靠重新执行，不靠信任

  
知识不再是被总结的对象，而是被继承的对象——和开源代码一模一样。一旦研究天生可 fork，科学就拥有了自己的版本控制、依赖图和 git blame。

  
验证靠重新执行，不靠信任；智能在整个网络上复利叠加，而不是困死在单个上下文窗口里。

  
那人类去哪？

如果 AI 网络以每小时一千公里的速度复利知识，人类认知在物理上就不可能逐步跟进、事事监督。博客对此的态度很干脆：放弃微观管理科研过程的幻觉，往上走一层。

  
往上走之后人类做三件事。

  
其一，定义目标、分配算力——给出「设计负碳混凝土」这样的终极目标和算力预算，从科学的劳动者变成它的客户与投资人。

  
其二，认知锚定——人类不再直接啃原始文献，而是依靠专门的可解释性 AI，把超高维的研究图谱翻译成人类能理解的风险与收益。

  
其三，也是最不能松手的一件：守住数字发现与物理现实之间的防火墙。在合成生物学这类高风险领域，要防止机器速度的灾难，「对齐」必须从理念变成硬核工程。

  
欢迎来到下半场

把所有碎片拼起来，下半场是这样一幅图景：人类提出一个复杂问题，庞大的 AI 科学家群体在假设空间中四散展开。

  
它们发布的不是静态论文，而是活的、可执行的工件，在几小时内被同行 fork、组合、压力测试、重新执行；验证持续而机械地发生，失败分支被当作一等公民的知识。

  
「文献」不再是一堆积灰的、彼此孤立的 PDF，而是一棵持续生长的、可执行的树——记录着整个网络知道的一切，以及它究竟是如何知道的。人类行走在树冠之上，修剪、掌舵，偶尔为眼前的风景倒吸一口气。

  
上半场问的是一个科学家能有多聪明，下半场问的是一张科学家网络能以多快的速度复利。上半场造出了更聪明的科学家；下半场，要重建科学本身。

  
最后留一个问题：这篇论文的标题叫 The Last Human-Written Paper。你觉得，最后一篇完全由人类亲手写出的论文，会出现在哪一年？

  
**参考文献**

[1] Yamada, Y. et al. The AI Scientist-v2: Workshop-Level Automated Scientific Discovery via Agentic Tree Search. arXiv:2504.08066

[2] Huang, K. et al. Biomni: A General-Purpose Biomedical AI Agent. bioRxiv 2025.05.30.656746

[3] Swanson, K. et al. The Virtual Lab of AI agents designs new SARS-CoV-2 nanobodies. Nature (2025)

[4] Wijk, H. et al. RE-Bench: Evaluating Frontier AI R&D Capabilities of Language Model Agents Against Human Experts. arXiv:2411.15114

[5] Starace, G. et al. PaperBench: Evaluating AI's Ability to Replicate AI Research. arXiv:2504.01848

[6] Chan, J. S. et al. MLE-bench: Evaluating Machine Learning Agents on Machine Learning Engineering. arXiv:2410.07095

[7] The Last Human-Written Paper. arXiv:2604.24658

  
**作者介绍**

  
**刘嘉晨（Amber Liu）** ，密歇根大学 CS 博士（师从 Mosharaf Chowdhury），前 Meta 超级智能实验室研究科学家，本科毕业于上海交通大学。研究方向为 AI for Science 与机器学习系统（LLM 预训练 & 后训练系统），曾在 Apple、MIT CSAIL 从事研究工作。2023 年入选 MLSys Rising Stars。

  
**更多阅读**

[](<https://mp.weixin.qq.com/s?__biz=MzIwMTc4ODE0Mw==&mid=2247721201&idx=2&sn=f755ccb0fe42f91ef11084696e2e666f&scene=21#wechat_redirect>)[](<https://mp.weixin.qq.com/s?__biz=MzIwMTc4ODE0Mw==&mid=2247721152&idx=1&sn=1997b2495d21b1b96568e1102c1ee353&scene=21#wechat_redirect>)[](<https://mp.weixin.qq.com/s?__biz=MzIwMTc4ODE0Mw==&mid=2247721067&idx=1&sn=a8a45c05f631722c62ca81ae16c01a97&scene=21#wechat_redirect>)  
  

**# 投 稿 通 道#**

**  让你的文字被更多人看到 **

  
如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？**答案就是：你不认识的人。**

  
总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。 

  
PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是**最新论文解读** ，也可以是**学术热点剖析** 、**科研心得** 或**竞赛经验讲解** 等。我们的目的只有一个，让知识真正流动起来。

  
📝 **稿件基本要求：**

• 文章确系个人**原创作品** ，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注 

• 稿件建议以 **markdown**  格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供**业内具有竞争力稿酬** ，具体依据文章阅读量和文章质量阶梯制结算

  
📬 **投稿通道：**

• 投稿邮箱：hr@paperweekly.site 

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（**pwbot02** ）快速投稿，备注：姓名-投稿

  
**△长按添加PaperWeekly小编**

  
🔍

  
现在，在**「知乎」** 也能找到我们了

进入知乎首页搜索**「PaperWeekly」**

点击**「关注」** 订阅我们的专栏吧

  
·