--- title: "AlphaEvolve: A coding agent for scientific and algorithmic discovery" source_url: https://mp.weixin.qq.com/s/Iu4Ayq8qQIz7LlgT1zqpXw publish_date: 2026-05-01 tags: [wechat, article, claude, agent, coding, llm, gemini] review_value: 7 review_confidence: 7 review_recommendation: neutral ingested: 2026-05-16 sha256: aa4f125200cfafd45b9594bd1e35543ca7e73d6a6c7025fa38744789b4a1110d --- # AlphaEvolve: A coding agent for scientific and algorithmic discovery **论文:** AlphaEvolve: A coding agent for scientific and algorithmic discovery **作者:** Alexander Novikov 等(Google DeepMind) **arXiv:** 2506.13131v1 **来源:** 爱折腾研究组(微信公众号),2026-05-01 12:21 福建 AlphaEvolve 不是把 LLM 当成一个更聪明的程序员,而是把 LLM 放进一个持续试错、自动评估、优胜劣汰的进化系统里,让它去发现新算法、改写关键基础设施,甚至直接推动科学与工程上的新结果。 核心判断:只要问题存在可执行、可验证、可比较的反馈回路,LLM 就可以不只"直接答题",而是被放进一个进化系统里持续生成、评估、保留和重组更好的程序。 --- ## 核心结果 | 领域 | 结果 | |------|------| | 矩阵乘法 | 14 组新算法,⟨4,4,4⟩ 从 49 降到 48 次标量乘法——56 年来首次超过 Strassen 1969 同类设定 | | 数学构造 | 50+ 问题中 ~75% 追平已知最优,~20% 超过 SOTA(kissing number 592→593, Erdős 最小重叠问题) | | 数据中心调度 | Borg 调度启发式,部署后持续回收平均 **0.7%** 全局算力 | | Gemini kernel | 矩阵乘法 kernel **23%** 平均加速,整体训练时间降低 ~1% | | 硬件电路 | TPU Verilog RTL 优化,去掉了不必要的位 | | 编译器 IR | FlashAttention kernel **32%** 加速,前后处理 **15%** 加速 | ## 架构 ### 五大组件 1. **初始程序 + 评估器** — 用户提供可运行的初始程序 + 自动 evaluate 函数 + 可选背景知识 2. **Prompt sampler** — 从 program database 抽取历史优解/分数/执行结果 + 当前程序 + 固定背景知识 + 演化出的 meta prompt,拼成 rich context 3. **LLM ensemble** — Gemini 2.0 Flash(高吞吐快速出点子)+ Gemini 2.0 Pro(偶尔给出跃迁方案),输出 SEARCH/REPLACE 格式代码 diff 4. **Evaluators pool** — 评测级联(先小测试再决定是否大评测)、LLM-generated feedback、并行化评测、多指标联合优化 5. **Evolution database** — 维护不断增长的程序种群(MAP-Elites + island-based population),保留多样性避免局部最优 ### 与 FunSearch 的关键升级 | 维度 | FunSearch | AlphaEvolve | |------|-----------|-------------| | 修改粒度 | 小函数 | 整份代码文件 | | 代码规模 | 十几行 Python | 数百行级别,多语言 | | 评估时间 | 极快单点 | 长时间、并行化、高代价 | | 指标 | 单一分数 hill-climbing | 多指标联合优化 | ## 方法论洞见 1. **人定义"要什么",系统自己探索"怎么做"** — 人类负责任务/评测/初始程序/背景知识,系统负责提出修改、执行评估、保留优解、继续进化 2. **反馈驱动的连续改进** — 每次输出变成下一轮输入,不是"这一次回答对不对"而是"回路能不能留住好想法" 3. **代码是关键的"中间表示"** — 代码 = 候选解 + 搜索空间 + 反馈接口(可自动执行/评估/修改/组合) 4. **进化"找答案的方法"而非答案本身** — 很多高质量解需要分阶段优化(前期快速探索→后期局部打磨) ## 消融实验结论 1. 进化机制不是点缀而是核心 — 去掉 evolution 性能显著下降 2. 长上下文和问题特定信息非常重要 3. 全文件演化能力很关键 — 很多问题需要跨模块联动改写 4. 更强模型有价值但不是全部 — 大模型通过进化回路被放大 ## 与 vault 中其他工作的关系 | 维度 | AlphaEvolve | CogAlpha | AutoResearch | |------|-------------|----------|--------------| | 机构 | Google DeepMind | GIM + 港大 | Karpathy 社区 | | 核心 | 代码进化 + 评估反馈 | 层级化多 Agent 探索 | Codex+Claude 交叉审核 | | 领域 | 通用科学/算法发现 | 量化 Alpha 挖掘 | 软件开发 | | 评测 | 自动评估器(可执行+可验证) | IC/IR/MI 五维指标 | 5 维度评分 | | 进化 | ✅ 显式进化回路 | ✅ 变异+交叉+选择 | ❌ 无 | 共同主题:**Agentic Research** — 让 LLM 不只是生成内容,而是参与研究流程本身。 ## 局限 - 强依赖自动评估器 - 搜索成本高(单条候选可上百 compute-hours) - 问题表述高度依赖人类专家 - 工业案例外部可复现性有限 - 搜索轨迹的可解释分析不够充分 --- *本文基于爱折腾研究组(微信公众号)文章整理,原文链接:https://mp.weixin.qq.com/s/Iu4Ayq8qQIz7LlgT1zqpXw*