--- title: Cognitive Alpha Mining via LLM-Driven Code-Based Evolution source_url: https://mp.weixin.qq.com/s/_-woiTczeslm6xvKlAwcqw publish_date: 2026-05-01 tags: [wechat, article, agent, llm] review_value: 7 review_confidence: 7 review_recommendation: neutral ingested: 2026-05-16 sha256: fb436eb386d52897151c8c98de063ca0bdd3b8378c32bc4ff9d33eab2919f3c8 --- # Cognitive Alpha Mining via LLM-Driven Code-Based Evolution **论文标题:** Cognitive Alpha Mining via LLM-Driven Code-Based Evolution **论文作者:** Fengyuan Liu, Yi Huang, Sichun Luo, Yuqi Wang, Yazheng Yang, Xinye Li, Zefa Hu, Junlan Feng, Qi Liu (Grace Investment Machine + 香港大学) **会议:** ACL 2026 Recommended Oral **arXiv:** 2511.18850v3 **来源:** 机器之心(微信公众号),2026-05-01 15:24 湖北 如果把量化投资里最难的一件事挑出来,很多人都会指向同一个词:Alpha。说白了,就是那些能提前告诉你"这只股票后面大概率怎么走"的有效信号。 问题也恰恰出在这里。市场噪声太大,数据维度太高,真正有用的信号又少得可怜。人手搓因子,慢;遗传编程容易在局部打转,产出一堆长得差不多、经济意义也不强的东西;深度学习虽然猛,但很多时候你知道它有效,却说不清它为什么有效,换个市场、换个周期,就不一定稳了。 CogAlpha 不再让大模型只当"写公式的助手",而是把它当成会分工、会反思、会迭代、还会自己改代码的研究员团队,去自动挖掘 Alpha。 在来自中美港三个市场的 5 个数据集上,这套方法稳定跑赢了 21 个基线方法。主实验 CSI300、10 天预测任务上,年化超额收益达到 16.39%,信息比率 1.8999。 --- ## 核心创新:从"公式"到"代码" CogAlpha 把 Alpha 从"公式"升级成了"代码"。用公式表达因子,表达能力受限。换成 Python 代码后,因子的搜索空间一下被打开——大模型不再只是吐一个数学表达式,而是能写出带注释、带逻辑、能执行、能检查的候选因子程序。 ## 7 层 21 个智能体的探索体系 系统里最引人注目的部分,是一个 **7 层、21 个智能体**的探索体系,按量化研究的思考方式,从宏观到微观一路拆下去: | 层 | 研究主题 | 职责 | |----|---------|------| | 第 1 层 | 市场结构与周期 | 长期趋势和阶段切换 | | 第 2 层 | 极端风险和脆弱性 | 尾部风险和崩盘前兆 | | 第 3 层 | 价量关系 | 流动性、买卖失衡 | | 第 4 层 | 趋势与反转 | 趋势延续、短期反转、波动聚集 | | 第 5 层 | 多尺度复杂性 | 回撤结构和分形粗糙度 | | 第 6 层 | 稳定性和状态门控 | 按不同市场状态决定信号是否激活 | | 第 7 层 | 几何特征和融合 | K 线形态、多因子合成、非线性改写 | 不是让一个大模型闷头想因子,而是让一整个分工明确的研究团队,同时从不同角度去挖。 ## 进化式迭代 CogAlpha 走了一条很像研究员反复打磨的路径: 1. **生成**:LLM 生成一批候选 Alpha(Python 代码) 2. **验证**:检查代码能不能跑、逻辑有没有问题 3. **筛选**:用 IC、RankIC、ICIR、RankICIR、互信息 MI 五个指标做评估 4. **进化**:好的候选拿去变异、交叉和进化 5. **迭代**:差的淘汰,有潜力的留下继续 筛选分两档: - 超过同代 **65 分位** → 合格因子 - 超过同代 **80 分位** → 精英因子(进入下一轮演化) ### 多样化提示策略 为了防止系统越来越保守、最后只会围着几个套路打转: - **轻度改写**:保证稳定 - **中度改写**:引入自然变体 - **创造性改写**:鼓励从不同研究角度重新理解同一个方向 ## 实验结果 **主实验:CSI300 成分股,10 天预测任务** | 指标 | 最优基线 | CogAlpha | 提升 | |------|---------|----------|------| | 年化超额收益 | ~8% | **16.39%** | ~翻倍 | | 信息比率 (IR) | — | **1.8999** | 显著拉开 | 相比 21 个基线方法拿到最好的整体表现。 ### 反直觉发现 - **闭源模型并没有天然更强**:推理型模型表现甚至偏弱 - **真正拉开差距的是认知式工作流本身**,不是底层模型的能力上限 - Alpha 挖掘比的不是"谁更聪明",而是谁的结构更适合探索、筛选和演化 ## 可解释性 CogAlpha 生成的每个 Alpha 不只是一个数字结果,而是附带详细注释、完整代码实现,解释这个因子的逻辑和想法。 示例因子逻辑:"价格上行幅度除以成交量"衡量流动性冲击——如果股票价格冲得快但成交量并不大,意味着流动性很薄、价格冲击更大,短期收益也许更值得关注。 ## 论文定位与局限 这篇工作更大的价值在于给出了一种**新范式**:让大模型不只是生成内容,而是参与研究流程本身;不只是给答案,而是组织探索、筛选、反思和进化。 放在量化里,这叫自动化 Alpha 发现。再往外看,更像一种 **Agentic Research** 的落地案例——把研究任务拆成层级化认知单元,给每个单元设定职责,再让系统通过反馈做持续演化。 局限:回测全在 Qlib 框架里完成,和真实交易环境还有距离;LLM 输出有随机性,数据规模越大执行时间越长。 --- *本文基于机器之心(微信公众号)转载文章整理,原文链接:https://mp.weixin.qq.com/s/_-woiTczeslm6xvKlAwcqw*