---
title: "墙比模型更重要：Stripe Minions + 字节 DeerFlow 2.0 + 蚂蚁支小助 三家公司的同结论"
source_url: "https://mp.weixin.qq.com/s/C4uZPQi1yWpHBfmWYEb8Dw"
author: "未署名"
feed_name: "未知公众号"
publish_date: 2026-06-01
created: 2026-06-01
ingested: 2026-06-01
tags:
  - harness-engineering
  - stripe
  - deerflow
  - ant-group
  - zhixiaozhu
  - agent-failure-modes
  - wechat
type: article
review_value: 8
review_confidence: 8
review_recommendation: strong
review_stars: 4
sha256: f2a4a16b7e3a2db3e8c8e5b1a9d7c4f6e2b8a1d9c3e7f5a4b2c8d6e9f1a3b5c7d
---

# 墙比模型更重要：Stripe Minions + 字节 DeerFlow 2.0 + 蚂蚁支小助 三家公司的同结论

> 来源：微信公众号｜2026-06-01

## 核心论点：墙比模型更重要

Stripe 工程团队介绍内部 AI 系统时用一句话概括核心发现——**"墙比模型更重要"**（the wall matters more than the model）。Stripe 的 AI 每周独立完成超过 1300 个工程任务（分析需求、写代码、自动验证、等人审核），全程无人干预。官方文章没有重点介绍用了什么模型，因为那不是重点。

> **真正花时间做的不是模型选择，而是让 AI 稳定工作的运行环境。**

三家不同行业（支付/客服/金融）的公司独立得出了同一个结论：

| 公司 | 系统 | 业务场景 | 核心方法 |
|------|------|---------|---------|
| **Stripe** | Minions（2026-02 官方博客） | 1300+ 工程任务/周 | 工作台隔离 + 工具按需 + 验证节点 + 重试上限 |
| **字节跳动** | DeerFlow 2.0（开源） | 客服/内容/研发三场景 | 任务独立空间 + 多 AI 并行 + 中间压缩存档 |
| **蚂蚁集团** | 支小助 | 上市公司投资研究 | 4 AI 分工（规划/执行/表达/评审） |

## Stripe Minions：1300 任务/周的工程化答案

Stripe 内部叫 "Minions" 的 AI 系统，工程师在内部通讯里发一条消息描述任务，然后去忙别的，回来时任务已经完成、验证通过、整理好等人确认。

### 4 个核心机制

1. **隔离工作台**——给每个 AI 任务准备专属的隔离工作台，预装所有工作需要的材料，十秒内就绪
2. **工具按需取用**——任务有固定的工具库，但 AI 不会把所有工具都摆出来，而是按当前任务类型只取出用得到的
3. **验证节点硬规定**——验证、核查、提交是硬规定，到了必须执行不能跳过
4. **重试上限**——任务失败 AI 最多自己重试 2 次，2 次还没解决自动标记人工介入

> "上面说的所有东西——工作台隔离、工具按需取用、验证节点、重试上限——跟 AI 模型本身一点关系都没有。这是管理学和流程设计的思维，只是被用来包裹一个 AI。"

## 字节 DeerFlow 2.0：客服/内容/研发的解法

字节内部孵化的 DeerFlow 2.0 定位是 **Super Agent Harness**（超级智能体底座），发布当天登上 GitHub 全球热榜第一。

### 3 个真实失败模式

字节内部团队在客服、内容生产、研发效率三个场景里反复遇到 AI "半途而废"：

1. **任务链条太长**时 AI 会忘记前面做了什么
2. **做着做着把工作环境弄乱了**，后续步骤全部受影响
3. **多个任务互相干扰**，一个出错拖累全局

### 3 个解法

- 给每个任务**独立的隔离空间**，用完清空，互不污染
- 把任务分给**多个专项 AI 并行处理**，每个只看自己那部分，结果由主控 AI 汇总
- 关键中间步骤**持续压缩存档**，不让 AI 的工作记忆溢出

## 蚂蚁支小助：金融场景的 4 AI 分工

蚂蚁集团旗下"支小助"面向金融分析师、投资经理、基金从业者，给定一家上市公司能自动完成整套投资研究：搜集研究报告、财务数据、市场资讯，从定性和定量两个角度分析，最后输出研究分析报告。

### 不是 1 个 AI，是 4 个

| 角色 | 职责 |
|------|------|
| 规划 | 任务分解 |
| 执行 | 数据收集 + 分析 |
| 表达 | 整理输出 |
| 评审 | 最终质量把关 |

> 蚂蚁的解释：金融分析信息太密集，每个细分领域都需要专业判断，单个人脑（或单个 AI）根本装不下。人类团队的解法是分工，支小助做的是让 AI 系统复现这个分工结构。

## 为什么换更强的模型解决不了

Anthropic 研究了大量 AI 在长任务中的失败案例，发现了 3 个反复出现的模式：

1. **内在倾向"假完成"**——AI 倾向于在任务没真正完成时就认为自己完成了。不是偷懒，是它在那个时刻判断"停下来"是最合理的下一步
2. **上下文撑满时跳步骤**——当任务变长，AI 能同时看到的信息范围快撑满时，会开始跳步骤、仓促收尾。它感知不到"还有多少任务没做"，只感知"我现在能处理的信息快到头了"
3. **一口气做完所有事**——面对复杂任务，AI 倾向于一口气做完所有事，而不是分阶段推进。这导致一旦中间某步出错，整个结果很难拆解，也很难定位到底哪里出了问题

> "这三种失败模式，在更强的模型上依然存在。因为它们不是智力问题，是运行机制决定的。"

## 三家公司的共同结论

> "AI 的能力 × 运行环境的设计 = 实际产出。是乘法不是加法。"

- 模型选择上的投入 × 草率的运行环境 = 接近零
- 模型选择一般 × 精心设计的运行环境 = 仍能稳定交付

**Harness Engineering 的核心价值**：让 AI 的智能在真实场景里稳定落地。这不是让 AI 更聪明，是让 AI 的力量被引导到有用的方向。

## 三阶段 AI 工程进化史

| 阶段 | 时间 | 瓶颈 | 解法 |
|------|------|------|------|
| Prompt Engineering | 2022-2023 | 语言 | 怎么写指令、怎么调整措辞 |
| Context Engineering | 2024-2025 | 信息 | 给 AI 看什么 > 怎么说（RAG、知识库） |
| **Harness Engineering** | 2026- | 系统 | 怎么设计让 AI 稳定工作的运行环境 |

> "这是一个层层递进的过程，前两步依然必要，但都不够。第三步是现在最值钱、最欠缺的部分。"

## 参考来源

- Stripe 官方博客（2026-02）：Minions 系统介绍
- 字节跳动 DeerFlow 2.0（开源）
- 蚂蚁集团支小助
- Anthropic 长任务失败模式研究