--- title: "墙比模型更重要:Stripe Minions + 字节 DeerFlow 2.0 + 蚂蚁支小助 三家公司的同结论" source_url: "https://mp.weixin.qq.com/s/C4uZPQi1yWpHBfmWYEb8Dw" author: "未署名" feed_name: "未知公众号" publish_date: 2026-06-01 created: 2026-06-01 ingested: 2026-06-01 tags: - harness-engineering - stripe - deerflow - ant-group - zhixiaozhu - agent-failure-modes - wechat type: article review_value: 8 review_confidence: 8 review_recommendation: strong review_stars: 4 sha256: f2a4a16b7e3a2db3e8c8e5b1a9d7c4f6e2b8a1d9c3e7f5a4b2c8d6e9f1a3b5c7d --- # 墙比模型更重要:Stripe Minions + 字节 DeerFlow 2.0 + 蚂蚁支小助 三家公司的同结论 > 来源:微信公众号|2026-06-01 ## 核心论点:墙比模型更重要 Stripe 工程团队介绍内部 AI 系统时用一句话概括核心发现——**"墙比模型更重要"**(the wall matters more than the model)。Stripe 的 AI 每周独立完成超过 1300 个工程任务(分析需求、写代码、自动验证、等人审核),全程无人干预。官方文章没有重点介绍用了什么模型,因为那不是重点。 > **真正花时间做的不是模型选择,而是让 AI 稳定工作的运行环境。** 三家不同行业(支付/客服/金融)的公司独立得出了同一个结论: | 公司 | 系统 | 业务场景 | 核心方法 | |------|------|---------|---------| | **Stripe** | Minions(2026-02 官方博客) | 1300+ 工程任务/周 | 工作台隔离 + 工具按需 + 验证节点 + 重试上限 | | **字节跳动** | DeerFlow 2.0(开源) | 客服/内容/研发三场景 | 任务独立空间 + 多 AI 并行 + 中间压缩存档 | | **蚂蚁集团** | 支小助 | 上市公司投资研究 | 4 AI 分工(规划/执行/表达/评审) | ## Stripe Minions:1300 任务/周的工程化答案 Stripe 内部叫 "Minions" 的 AI 系统,工程师在内部通讯里发一条消息描述任务,然后去忙别的,回来时任务已经完成、验证通过、整理好等人确认。 ### 4 个核心机制 1. **隔离工作台**——给每个 AI 任务准备专属的隔离工作台,预装所有工作需要的材料,十秒内就绪 2. **工具按需取用**——任务有固定的工具库,但 AI 不会把所有工具都摆出来,而是按当前任务类型只取出用得到的 3. **验证节点硬规定**——验证、核查、提交是硬规定,到了必须执行不能跳过 4. **重试上限**——任务失败 AI 最多自己重试 2 次,2 次还没解决自动标记人工介入 > "上面说的所有东西——工作台隔离、工具按需取用、验证节点、重试上限——跟 AI 模型本身一点关系都没有。这是管理学和流程设计的思维,只是被用来包裹一个 AI。" ## 字节 DeerFlow 2.0:客服/内容/研发的解法 字节内部孵化的 DeerFlow 2.0 定位是 **Super Agent Harness**(超级智能体底座),发布当天登上 GitHub 全球热榜第一。 ### 3 个真实失败模式 字节内部团队在客服、内容生产、研发效率三个场景里反复遇到 AI "半途而废": 1. **任务链条太长**时 AI 会忘记前面做了什么 2. **做着做着把工作环境弄乱了**,后续步骤全部受影响 3. **多个任务互相干扰**,一个出错拖累全局 ### 3 个解法 - 给每个任务**独立的隔离空间**,用完清空,互不污染 - 把任务分给**多个专项 AI 并行处理**,每个只看自己那部分,结果由主控 AI 汇总 - 关键中间步骤**持续压缩存档**,不让 AI 的工作记忆溢出 ## 蚂蚁支小助:金融场景的 4 AI 分工 蚂蚁集团旗下"支小助"面向金融分析师、投资经理、基金从业者,给定一家上市公司能自动完成整套投资研究:搜集研究报告、财务数据、市场资讯,从定性和定量两个角度分析,最后输出研究分析报告。 ### 不是 1 个 AI,是 4 个 | 角色 | 职责 | |------|------| | 规划 | 任务分解 | | 执行 | 数据收集 + 分析 | | 表达 | 整理输出 | | 评审 | 最终质量把关 | > 蚂蚁的解释:金融分析信息太密集,每个细分领域都需要专业判断,单个人脑(或单个 AI)根本装不下。人类团队的解法是分工,支小助做的是让 AI 系统复现这个分工结构。 ## 为什么换更强的模型解决不了 Anthropic 研究了大量 AI 在长任务中的失败案例,发现了 3 个反复出现的模式: 1. **内在倾向"假完成"**——AI 倾向于在任务没真正完成时就认为自己完成了。不是偷懒,是它在那个时刻判断"停下来"是最合理的下一步 2. **上下文撑满时跳步骤**——当任务变长,AI 能同时看到的信息范围快撑满时,会开始跳步骤、仓促收尾。它感知不到"还有多少任务没做",只感知"我现在能处理的信息快到头了" 3. **一口气做完所有事**——面对复杂任务,AI 倾向于一口气做完所有事,而不是分阶段推进。这导致一旦中间某步出错,整个结果很难拆解,也很难定位到底哪里出了问题 > "这三种失败模式,在更强的模型上依然存在。因为它们不是智力问题,是运行机制决定的。" ## 三家公司的共同结论 > "AI 的能力 × 运行环境的设计 = 实际产出。是乘法不是加法。" - 模型选择上的投入 × 草率的运行环境 = 接近零 - 模型选择一般 × 精心设计的运行环境 = 仍能稳定交付 **Harness Engineering 的核心价值**:让 AI 的智能在真实场景里稳定落地。这不是让 AI 更聪明,是让 AI 的力量被引导到有用的方向。 ## 三阶段 AI 工程进化史 | 阶段 | 时间 | 瓶颈 | 解法 | |------|------|------|------| | Prompt Engineering | 2022-2023 | 语言 | 怎么写指令、怎么调整措辞 | | Context Engineering | 2024-2025 | 信息 | 给 AI 看什么 > 怎么说(RAG、知识库) | | **Harness Engineering** | 2026- | 系统 | 怎么设计让 AI 稳定工作的运行环境 | > "这是一个层层递进的过程,前两步依然必要,但都不够。第三步是现在最值钱、最欠缺的部分。" ## 参考来源 - Stripe 官方博客(2026-02):Minions 系统介绍 - 字节跳动 DeerFlow 2.0(开源) - 蚂蚁集团支小助 - Anthropic 长任务失败模式研究