---

title: "AlphaEvolve: A coding agent for scientific and algorithmic discovery"
source_url: https://mp.weixin.qq.com/s/Iu4Ayq8qQIz7LlgT1zqpXw
publish_date: 2026-05-01
tags: [wechat, article, claude, agent, coding, llm, gemini]
review_value: 7
review_confidence: 7
review_recommendation: neutral
ingested: 2026-05-16
sha256: aa4f125200cfafd45b9594bd1e35543ca7e73d6a6c7025fa38744789b4a1110d

---
# AlphaEvolve: A coding agent for scientific and algorithmic discovery
**论文：** AlphaEvolve: A coding agent for scientific and algorithmic discovery
**作者：** Alexander Novikov 等（Google DeepMind）
**arXiv：** 2506.13131v1
**来源：** 爱折腾研究组（微信公众号），2026-05-01 12:21 福建
AlphaEvolve 不是把 LLM 当成一个更聪明的程序员，而是把 LLM 放进一个持续试错、自动评估、优胜劣汰的进化系统里，让它去发现新算法、改写关键基础设施，甚至直接推动科学与工程上的新结果。
核心判断：只要问题存在可执行、可验证、可比较的反馈回路，LLM 就可以不只"直接答题"，而是被放进一个进化系统里持续生成、评估、保留和重组更好的程序。
---
## 核心结果
| 领域 | 结果 |
|------|------|
| 矩阵乘法 | 14 组新算法，⟨4,4,4⟩ 从 49 降到 48 次标量乘法——56 年来首次超过 Strassen 1969 同类设定 |
| 数学构造 | 50+ 问题中 ~75% 追平已知最优，~20% 超过 SOTA（kissing number 592→593, Erdős 最小重叠问题） |
| 数据中心调度 | Borg 调度启发式，部署后持续回收平均 **0.7%** 全局算力 |
| Gemini kernel | 矩阵乘法 kernel **23%** 平均加速，整体训练时间降低 ~1% |
| 硬件电路 | TPU Verilog RTL 优化，去掉了不必要的位 |
| 编译器 IR | FlashAttention kernel **32%** 加速，前后处理 **15%** 加速 |
## 架构
### 五大组件
1. **初始程序 + 评估器** — 用户提供可运行的初始程序 + 自动 evaluate 函数 + 可选背景知识
2. **Prompt sampler** — 从 program database 抽取历史优解/分数/执行结果 + 当前程序 + 固定背景知识 + 演化出的 meta prompt，拼成 rich context
3. **LLM ensemble** — Gemini 2.0 Flash（高吞吐快速出点子）+ Gemini 2.0 Pro（偶尔给出跃迁方案），输出 SEARCH/REPLACE 格式代码 diff
4. **Evaluators pool** — 评测级联（先小测试再决定是否大评测）、LLM-generated feedback、并行化评测、多指标联合优化
5. **Evolution database** — 维护不断增长的程序种群（MAP-Elites + island-based population），保留多样性避免局部最优
### 与 FunSearch 的关键升级
| 维度 | FunSearch | AlphaEvolve |
|------|-----------|-------------|
| 修改粒度 | 小函数 | 整份代码文件 |
| 代码规模 | 十几行 Python | 数百行级别，多语言 |
| 评估时间 | 极快单点 | 长时间、并行化、高代价 |
| 指标 | 单一分数 hill-climbing | 多指标联合优化 |
## 方法论洞见
1. **人定义"要什么"，系统自己探索"怎么做"** — 人类负责任务/评测/初始程序/背景知识，系统负责提出修改、执行评估、保留优解、继续进化
2. **反馈驱动的连续改进** — 每次输出变成下一轮输入，不是"这一次回答对不对"而是"回路能不能留住好想法"
3. **代码是关键的"中间表示"** — 代码 = 候选解 + 搜索空间 + 反馈接口（可自动执行/评估/修改/组合）
4. **进化"找答案的方法"而非答案本身** — 很多高质量解需要分阶段优化（前期快速探索→后期局部打磨）
## 消融实验结论
1. 进化机制不是点缀而是核心 — 去掉 evolution 性能显著下降
2. 长上下文和问题特定信息非常重要
3. 全文件演化能力很关键 — 很多问题需要跨模块联动改写
4. 更强模型有价值但不是全部 — 大模型通过进化回路被放大
## 与 vault 中其他工作的关系
| 维度 | AlphaEvolve | CogAlpha | AutoResearch |
|------|-------------|----------|--------------|
| 机构 | Google DeepMind | GIM + 港大 | Karpathy 社区 |
| 核心 | 代码进化 + 评估反馈 | 层级化多 Agent 探索 | Codex+Claude 交叉审核 |
| 领域 | 通用科学/算法发现 | 量化 Alpha 挖掘 | 软件开发 |
| 评测 | 自动评估器（可执行+可验证） | IC/IR/MI 五维指标 | 5 维度评分 |
| 进化 | ✅ 显式进化回路 | ✅ 变异+交叉+选择 | ❌ 无 |
共同主题：**Agentic Research** — 让 LLM 不只是生成内容，而是参与研究流程本身。
## 局限
- 强依赖自动评估器
- 搜索成本高（单条候选可上百 compute-hours）
- 问题表述高度依赖人类专家
- 工业案例外部可复现性有限
- 搜索轨迹的可解释分析不够充分
---
*本文基于爱折腾研究组（微信公众号）文章整理，原文链接：https://mp.weixin.qq.com/s/Iu4Ayq8qQIz7LlgT1zqpXw*