---
title: "AI优先战略为何可能是错误的：一家 25 人公司的工程实践分析"
source: wechat
url: https://mp.weixin.qq.com/s/bM-ZXmUmsq2Jghq3U0g0Cg
ingest_date: 2026-07-04
vxc: 64
stars: 4
sha256: 54fdd981d160f17ec5ca6be6bb17454c93a06bbf9cd903bd13c9bb338752df87
---

# AI优先战略为何可能是错误的：一家 25 人公司的工程实践分析

**来源**: Unknown

**发布日期**: 2026-04-15

**原文链接**: https://mp.weixin.qq.com/s/bM-ZXmUmsq2Jghq3U0g0Cg

---

## 当 99% 的生产代码由 AI 编写

一家公司的生产环境中，99% 的代码由 AI 生成。某个周二上午 10 点发布的新功能，中午进行 A/B 测试，下午 3 点因数据表现不佳而被下线。下午 5 点，改进版本重新上线。三个月前，这样的迭代周期需要六周时间。

这种效率的提升并非来自在 IDE 中安装 Copilot，而是来自对工程流程的彻底重构——围绕 AI 重新设计规划、构建、测试、部署和团队组织的每一个环节。

CREAO 是一家代理平台公司，团队规模 25 人，其中工程师 10 人。2025 年 11 月开始构建代理系统，两个月前完成了产品架构和工程工作流的重构。

OpenAI 在 2026 年 2 月发表的概念论文中提出了"驾驭工程"（harness engineering）的概念：工程团队的主要工作不再是编写代码，而是让 AI 代理能够完成有效的工作。当出现失败时，解决方案不是"更努力地尝试"，而是识别缺失的能力，并将其对代理变得"可见、可理解、可执行"。

CREAO 独立得出了相同的结论，尽管当时还没有这个名称。

## AI 优先与 AI 辅助的本质区别

大多数团队采用 AI 的方式是在现有流程上叠加工具：工程师使用 Cursor，产品经理用 ChatGPT 撰写需求文档，QA 团队实验 AI 测试生成。工作流保持不变，效率提升 10-20%。这是 AI 辅助 。

AI 优先 意味着围绕"AI 是主要构建者"这一假设，重新设计流程、架构和组织。问题从"AI 如何帮助工程师"转变为"如何重构一切，使 AI 负责构建，工程师提供方向和判断"。

这种区别是乘法而非加法。

许多团队声称采用 AI 优先，却沿用相同的冲刺周期、Jira 看板、站会和 QA 签出流程。他们只是将 AI 添加到循环中，并未重新设计循环本身。

一种常见的表现是所谓的"vibe coding"：打开 Cursor，通过提示词生成能运行的代码，提交，重复。这种方式能产出原型，但生产系统需要稳定性、可靠性和安全性。需要一个能够保证这些属性的系统，而不是依赖临时提示。

## 三个必须改变的瓶颈

### 产品管理瓶颈

传统的产品管理流程中，产品经理花费数周时间进行调研、设计和需求编写。这种模式运行了几十年，但当 AI 代理能在两小时内实现功能时，数周的规划周期就成为约束。

投入数月时间规划，然后用两小时构建，这种模式不合理。产品经理需要进化为"产品导向的架构师"，以迭代速度工作，或退出构建循环。设计需要通过快速的原型 - 测试 - 迭代循环进行，而不是委员会评审的需求文档。

### QA 测试瓶颈

同样的动态出现在测试环节。代理发布功能后，QA 团队花费数天时间测试边界情况。构建时间两小时，测试时间三天。

解决方案是用 AI 构建的测试平台来测试 AI 编写的代码。验证速度必须与实现速度匹配，否则只是在下游十英尺处创建了新的瓶颈。

### 人力瓶颈

竞争对手拥有百倍以上的员工规模。无法通过招聘实现平衡，必须通过重新设计实现。

三个系统必须运行 AI：产品设计方式、产品实现方式、产品测试方式。任何一个环节保持人工，就会约束整个流水线。

## 统一架构：单仓库的设计决策

代码库的统一是首要任务。

旧架构分散在多个独立系统中。单次变更可能需要触及三到四个仓库。对人类工程师来说这是可管理的，但对 AI 代理来说是不透明的。代理无法看到完整画面，无法推理跨服务的影响，无法在本地运行集成测试。

统一为单仓库的核心原因是：让 AI 能够看到一切。

这是驾驭工程原则的实践：将系统越多地拉入代理可检查、验证和修改的形式，获得的杠杆就越大。碎片化的代码库对代理是不可见的，统一的代码库是可读的。

整个系统的设计耗时一周：规划阶段、实现阶段、测试阶段、集成测试阶段。代码库重构使用代理完成，耗时另一周。

CREAO 是一个代理平台。他们用代理重建了运行代理的平台。如果产品能够构建自己，那么它就可行。

## 技术栈详解

### 基础设施：云服务

运行在云服务平台上，使用自动扩展容器服务和熔断回滚机制。部署后指标退化时，系统自动回滚。

云监控服务是中枢神经系统。结构化日志覆盖所有服务，超过 25 个告警，自动化工作流每日查询自定义指标。每个基础设施组件都暴露结构化、可查询的信号。AI 无法读取日志，就无法诊断问题。

### CI/CD：GitHub Actions

每次代码变更通过六阶段流水线：

- 

- 验证 CI

- 

- 构建并部署开发环境

- 

- 测试开发环境

- 

- 部署生产环境

- 

- 测试生产环境

- 

- 发布

每次拉取请求的 CI 门禁强制执行类型检查、代码检查、单元和集成测试、Docker 构建、通过 Playwright 的端到端测试，以及环境一致性检查。没有阶段是可选的，没有手动覆盖。流水线是确定性的，代理可以预测结果并推理失败。

### AI 代码审查：Claude

每次拉取请求触发三个并行的 AI 审查流程，使用 Claude Opus 4.6：

第一遍：代码质量 ——逻辑错误、性能问题、可维护性 

 第二遍：安全 ——漏洞扫描、认证边界检查、注入风险 

 第三遍：依赖扫描 ——供应链风险、版本冲突、许可证问题

这些是审查门禁，不是建议。它们与人工审查并行运行，捕获人工在大规模下遗漏的内容。每天部署八次时，人工审查者无法在每次拉取请求中维持注意力。

工程师还在任何 GitHub 问题或拉取请求中标记 @claude，用于实现计划、调试会话或代码分析。代理看到整个单仓库。上下文在对话中延续。

### 自愈反馈循环

这是核心组件。

每天上午 9:00 UTC，自动化健康工作流运行。Claude Sonnet 4.6 查询云服务监控，分析所有服务的错误模式，并通过IM工具向团队提交执行健康摘要。不需要任何人请求。

一小时后，分类引擎运行。它将来自云服务监控和 Sentry 的生产错误聚类，在九个严重性维度上对每个聚类进行评分，并自动生成 Linear 调查工单。每个工单包含示例日志、受影响的用户、受影响的端点和建议的调查路径。

系统去重：如果开放问题覆盖了相同的错误模式，它会更新该问题。如果先前关闭的问题再次出现，它会检测到回归并重新打开。

工程师推送修复后，相同的流水线处理。三次 Claude 审查评估拉取请求。CI 验证。六阶段部署流水线通过开发和生产进行推广，每个阶段都有测试。部署后，分类引擎重新检查云服务监控。如果原始错误已解决，Linear 工单自动关闭。

每个工具处理一个阶段。没有工具试图做所有事情。每日周期创建一个自愈循环，错误被检测、分类、修复和验证，人工干预最小化。

### 功能标志和支撑栈

Statsig 处理功能标志。每个功能在门后发布。部署模式：对团队启用，然后逐步百分比推广，然后完全发布或终止。终止开关立即关闭功能，不需要部署。如果功能导致指标退化，数小时内下线。不良功能与上线同日死亡。A/B 测试通过同一系统运行。

Graphite 管理拉取请求分支：合并队列在 main 分支上变基，重新运行 CI，仅在绿色时合并。堆叠的拉取请求允许在高吞吐量下进行增量审查。

Sentry 在所有服务中报告结构化异常，与云服务监控由分类引擎合并，用于跨工具上下文。Linear 是面向人工的层：自动创建的工单，带有严重性评分、示例日志和建议的调查。去重防止噪音。后续验证自动关闭已解决的问题。

## 功能从想法到生产的路径

### 新功能路径

- 

- 架构师将任务定义为结构化提示，包含代码库上下文、目标和约束

- 

- 代理分解任务，规划实现，编写代码，生成自己的测试

- 

- 打开拉取请求。三次 Claude 审查评估

- 

- 人工审查者检查战略风险，而非逐行正确性

- 

- CI 验证：类型检查、代码检查、单元测试、集成测试、端到端测试

- 

- Graphite 合并队列变基、重新运行 CI、绿色时合并

- 

- 六阶段部署流水线通过开发和生产推广，每个阶段都有测试

- 

- 功能门对团队开启。逐步百分比推广。指标监控

- 

- 终止开关可用。严重问题时熔断自动回滚

### Bug 修复路径

1.云服务监控和 Sentry 检测错误 

 2. Claude 分类引擎评分严重性，创建带有完整调查上下文的 Linear 工单 

 3. 工程师调查。AI 已完成诊断。工程师验证并推送修复 

 4. 相同的审查、CI、部署和监控流水线 

 5. 分类引擎重新验证。如果解决，工单自动关闭

两条路径使用相同的流水线。一个系统。一个标准。

## 结果

14 天内，每天平均三到八次生产部署。在旧模式下，整个两周期间甚至不会产生一次生产发布。

不良功能上线当日被拉下。新功能在构思当日上线。A/B 测试实时验证影响。

人们假设以质量换速度。用户参与度上升。支付转化率上升。结果比以前更好，因为反馈循环更紧密。每日发布比每月发布学得更多。

## 新型工程组织

将存在两种类型的工程师。

### 架构师

一到两人。他们设计教授 AI 如何工作的标准操作程序。他们构建测试基础设施、集成系统、分类系统。他们决定架构和系统边界。他们为代理定义"好"的样子。

这个角色需要深度的批判性思维。批评 AI，而非跟随。当代理提出计划时，架构师发现漏洞：遗漏的失败模式？跨越的安全边界？积累的技术债务？

物理学博士训练中最有用的是质疑假设、压力测试论证、寻找缺失内容的能力。批评 AI 的能力将比生成代码的能力更有价值。

这也是最难填补的角色。

### 操作员

其他所有人。工作很重要。结构不同。

AI 分配任务给人类。分类系统发现 bug、创建工单、呈现诊断、分配给合适的人。人员调查、验证、批准修复。AI 创建拉取请求。人工审查是否存在风险。

任务包括 bug 调查、UI 优化、CSS 改进、拉取请求审查、验证。需要技能和注意力。不需要旧模式要求的架构推理。

## 适应速度的模式

初级工程师比高级工程师适应更快。

拥有较少传统实践的初级工程师感到被赋能。他们可以使用放大影响力的工具。他们没有十年的习惯需要摒弃。

拥有强大传统实践的高级工程师最难适应。AI 一小时完成两个月的工作，这是多年积累稀缺技能后难以接受的事实。

这不是评判，而是观察到的现象。在这种转变中，适应能力比积累的技能更重要。

## 管理层的转变

### 管理架构

两个月前，60% 的时间用于人员管理：对齐优先级、召开会议、提供反馈、指导工程师。

现在：低于 10%。

传统 CTO 模式说要赋能团队做架构工作、培训、委托。但如果系统只需要一到两名架构师，就需要亲自执行。从管理转向构建。每天上午 9 点到凌晨 3 点编码。设计系统的标准操作程序和架构。维护驾驭层。

压力更大。但享受构建，而非对齐。

### 减少争论，改善关系

与联合创始人和工程师的关系比以前更好。

转型前，与团队的大多数互动是对齐会议：讨论权衡、辩论优先级、就技术决策产生分歧。这些对话在传统模式中是必要的，但也很消耗精力。

现在仍然与团队交流。讨论其他话题：非工作主题、休闲对话、户外旅行。相处得更好，因为不再就系统可以轻松完成的工作产生争论。

### 不确定性是真实的

不是每个人都快乐。

停止每天与人交谈时，一些团队成员感到不确定。CTO 不跟我说话意味着什么？我在这个新世界中的价值是什么？合理的担忧。

有些人花更多时间辩论 AI 是否能完成他们的工作，而不是实际工作。转型期产生焦虑。没有干净的答案。

原则是：不因为工程师引入生产 bug 而解雇。改进审查流程、加强测试、添加防护。同样的原则适用于 AI。如果 AI 犯错，构建更好的验证、更清晰的约束、更强的可观测性。

## 超越工程

其他公司采用 AI 优先工程，但其他环节保持人工。

如果工程以小时为单位发布功能，但营销需要一周时间宣布，营销就是瓶颈。如果产品团队仍然运行月度规划周期，规划就是瓶颈。

CREAO 将 AI 原生操作推入每个职能：

- • 产品发布说明：从变更日志和功能描述 AI 生成

- • 功能介绍视频：AI 生成动态图形

- • 社交日常帖子：AI 编排和自动发布

- • 健康报告和分析摘要：从云服务监控和生产数据库 AI 生成

工程、产品、营销、增长在一个 AI 原生工作流中运行。如果一个职能以代理速度运行，另一个以人类速度运行，人类速度的职能约束一切。

## 对行业的意义

### 对工程师

价值从代码输出转向决策质量。快速编写代码的能力每月都在贬值。评估、批评和指导 AI 的能力在增值。

产品感知或品味很重要。能否在用户告知之前看到生成的 UI 有问题？能否在代理遗漏时看到架构提案中的失败模式？

培训批判性思维：学习评估论证、发现差距、质疑假设。学习良好设计的样貌。这些技能会复合增长。

### 对 CTO 和创始人

如果产品管理流程比构建时间更长，从这里开始。

在扩展代理之前构建测试驾驭层。没有快速验证的快速 AI 是快速移动的技术债务。

从一名架构师开始。一人构建系统并证明可行。系统运行后将其他人纳入操作员角色。

将 AI 原生推入每个职能。

预期阻力。有些人会推回。

### 对行业

OpenAI、Anthropic 和多个独立团队收敛于相同的原则：结构化上下文、专业化代理、持久记忆和执行循环。驾驭工程正在成为标准。

模型能力是驱动这一切的时钟。CREAO 的转变完全归因于过去两个月。Opus 4.5 无法做到 Opus 4.6 能做的事。下一代模型将进一步加速。

一人公司将变得普遍。如果一名架构师与代理可以完成百人的工作，许多公司不需要第二名员工。

## 早期阶段

大多数创始人和工程师仍然以传统方式运作。有些人在考虑转变。很少有人已经完成。

一位记者朋友谈过约五人这个话题。她说 CREAO 比任何人都更超前："我认为没有人像你们这样完全重建整个工作流。"

任何团队都可以使用这些工具。栈中没有专有内容。

竞争优势是围绕这些工具重新设计一切的决策，以及吸收成本的意愿。成本是真实的：员工的不确定性、CTO 工作 18 小时、高级工程师质疑自己的价值、旧系统消失而新系统未被证明的两周时间。

已经吸收了这些成本。两个月后，数据说明一切。

构建一个代理平台。用代理构建它。