---
title: Cognitive Alpha Mining via LLM-Driven Code-Based Evolution
source_url: https://mp.weixin.qq.com/s/_-woiTczeslm6xvKlAwcqw
publish_date: 2026-05-01
tags: [wechat, article, agent, llm]
review_value: 7
review_confidence: 7
review_recommendation: neutral
ingested: 2026-05-16
sha256: fb436eb386d52897151c8c98de063ca0bdd3b8378c32bc4ff9d33eab2919f3c8
---
# Cognitive Alpha Mining via LLM-Driven Code-Based Evolution
**论文标题：** Cognitive Alpha Mining via LLM-Driven Code-Based Evolution
**论文作者：** Fengyuan Liu, Yi Huang, Sichun Luo, Yuqi Wang, Yazheng Yang, Xinye Li, Zefa Hu, Junlan Feng, Qi Liu (Grace Investment Machine + 香港大学)
**会议：** ACL 2026 Recommended Oral
**arXiv：** 2511.18850v3
**来源：** 机器之心（微信公众号），2026-05-01 15:24 湖北
如果把量化投资里最难的一件事挑出来，很多人都会指向同一个词：Alpha。说白了，就是那些能提前告诉你"这只股票后面大概率怎么走"的有效信号。
问题也恰恰出在这里。市场噪声太大，数据维度太高，真正有用的信号又少得可怜。人手搓因子，慢；遗传编程容易在局部打转，产出一堆长得差不多、经济意义也不强的东西；深度学习虽然猛，但很多时候你知道它有效，却说不清它为什么有效，换个市场、换个周期，就不一定稳了。
CogAlpha 不再让大模型只当"写公式的助手"，而是把它当成会分工、会反思、会迭代、还会自己改代码的研究员团队，去自动挖掘 Alpha。
在来自中美港三个市场的 5 个数据集上，这套方法稳定跑赢了 21 个基线方法。主实验 CSI300、10 天预测任务上，年化超额收益达到 16.39%，信息比率 1.8999。
---
## 核心创新：从"公式"到"代码"
CogAlpha 把 Alpha 从"公式"升级成了"代码"。用公式表达因子，表达能力受限。换成 Python 代码后，因子的搜索空间一下被打开——大模型不再只是吐一个数学表达式，而是能写出带注释、带逻辑、能执行、能检查的候选因子程序。
## 7 层 21 个智能体的探索体系
系统里最引人注目的部分，是一个 **7 层、21 个智能体**的探索体系，按量化研究的思考方式，从宏观到微观一路拆下去：
| 层 | 研究主题 | 职责 |
|----|---------|------|
| 第 1 层 | 市场结构与周期 | 长期趋势和阶段切换 |
| 第 2 层 | 极端风险和脆弱性 | 尾部风险和崩盘前兆 |
| 第 3 层 | 价量关系 | 流动性、买卖失衡 |
| 第 4 层 | 趋势与反转 | 趋势延续、短期反转、波动聚集 |
| 第 5 层 | 多尺度复杂性 | 回撤结构和分形粗糙度 |
| 第 6 层 | 稳定性和状态门控 | 按不同市场状态决定信号是否激活 |
| 第 7 层 | 几何特征和融合 | K 线形态、多因子合成、非线性改写 |
不是让一个大模型闷头想因子，而是让一整个分工明确的研究团队，同时从不同角度去挖。
## 进化式迭代
CogAlpha 走了一条很像研究员反复打磨的路径：
1. **生成**：LLM 生成一批候选 Alpha（Python 代码）
2. **验证**：检查代码能不能跑、逻辑有没有问题
3. **筛选**：用 IC、RankIC、ICIR、RankICIR、互信息 MI 五个指标做评估
4. **进化**：好的候选拿去变异、交叉和进化
5. **迭代**：差的淘汰，有潜力的留下继续
筛选分两档：
- 超过同代 **65 分位** → 合格因子
- 超过同代 **80 分位** → 精英因子（进入下一轮演化）
### 多样化提示策略
为了防止系统越来越保守、最后只会围着几个套路打转：
- **轻度改写**：保证稳定
- **中度改写**：引入自然变体
- **创造性改写**：鼓励从不同研究角度重新理解同一个方向
## 实验结果
**主实验：CSI300 成分股，10 天预测任务**
| 指标 | 最优基线 | CogAlpha | 提升 |
|------|---------|----------|------|
| 年化超额收益 | ~8% | **16.39%** | ~翻倍 |
| 信息比率 (IR) | — | **1.8999** | 显著拉开 |
相比 21 个基线方法拿到最好的整体表现。
### 反直觉发现
- **闭源模型并没有天然更强**：推理型模型表现甚至偏弱
- **真正拉开差距的是认知式工作流本身**，不是底层模型的能力上限
- Alpha 挖掘比的不是"谁更聪明"，而是谁的结构更适合探索、筛选和演化
## 可解释性
CogAlpha 生成的每个 Alpha 不只是一个数字结果，而是附带详细注释、完整代码实现，解释这个因子的逻辑和想法。
示例因子逻辑："价格上行幅度除以成交量"衡量流动性冲击——如果股票价格冲得快但成交量并不大，意味着流动性很薄、价格冲击更大，短期收益也许更值得关注。
## 论文定位与局限
这篇工作更大的价值在于给出了一种**新范式**：让大模型不只是生成内容，而是参与研究流程本身；不只是给答案，而是组织探索、筛选、反思和进化。
放在量化里，这叫自动化 Alpha 发现。再往外看，更像一种 **Agentic Research** 的落地案例——把研究任务拆成层级化认知单元，给每个单元设定职责，再让系统通过反馈做持续演化。
局限：回测全在 Qlib 框架里完成，和真实交易环境还有距离；LLM 输出有随机性，数据规模越大执行时间越长。
---
*本文基于机器之心（微信公众号）转载文章整理，原文链接：https://mp.weixin.qq.com/s/_-woiTczeslm6xvKlAwcqw*