---
title: "How to Build an AI-Native Startup"
source_url: "https://mp.weixin.qq.com/s/TXk9JNSnBDCjm3VzvtcJGg"
author: "深思圈 · 深思SenseAI"
feed_name: "深思圈"
published: 2026-05-26
created: 2026-05-26
type: raw
tags: [agent, ai-native, startup, harness, context-engineering, eval, cyber-fund]
sha256: 6be1d282bce63e9d9d3ac7ffa8518189f4bf140166142383aab66b418126b222
---

# How to Build an AI-Native Startup

> 原文来自 cyber.fund 创始人 Stepan Gershuni (@cyntro_py) 的创始人指南。文章系统阐述 AI 原生创业公司的核心操作系统：Context·Agents·Evals·Skills，以及如何通过高频工作流建立复利优势。

## 核心论点

真正的差距，不是谁雇了更多人，是谁的公司学得更快、迭代得更快。每天快一点。几周后差距开始拉开。几个月后，只有一家会活下来。

## 01 先画地图

把过去两周公司里重复发生的所有工作列出来：客户通话整理、线索调研、支持工单分类、产品测试、候选人初筛、发票审核、竞品监控……创始人的日历里通常有 20 到 40 项这样的东西，诚实列下来会发现，有 10 到 15 项是你没意识到已经变成例行工作的。

然后按自主程度分级：

- **最底层（纯人工）**：战略决策、关键招聘、法律签字——这些不碰
- **往上一层（AI 起草/人审批）**：投资人更新、合同红线、定价页改写
- **再往上（AI 执行/人监督）**：入站分类、会议记录路由、线索丰富
- **最高层（自主跑）**：竞品监控、夜间报告、简单异常检测

**反直觉规律：频率胜过重要性。** 低频的工作哪怕看起来更重要，你永远攒不够样本来知道自己做得好不好。

C.H. Robinson 的例子：每天 10,000 封邮件的入站分类推到全自主，结果退回到了 AI 起草人审批。量太大了，单条错误路由的代价看着小，但藏在总量里根本发现不了。如果团队自己都说不清什么算做得好，那这个流程就还没到能交给机器的时候。

## 02 把记忆装进代码库

Context 定义为「AI 原生创业公司的操作记忆」——公司对自己的一切了解，放在智能体能读到的地方。

模型是锅，context 是你和你业务之间的默契库。同一个模型，读了你三个月客户通话提炼的公司，和一个刚接入 API 的公司，输出质量差的不是一个级别。模型会换代，就像锅会升级。但那层「知道客户说再考虑考虑其实意思是价格太高」的提炼，是跟着你走的。

建议从一个 Git 仓库开始——有版本历史，可比较差异，人和智能体都能读。第七天的工作区可以只有几个文件：CLAUDE.md、context/company.md、context/product.md、context/customers.md、context/lessons.md。控制在 40-60 行手写内容，紧凑的「应该避免什么」清单，比 400 行 AI 生成的内容更有用。

**关键数字**：Anthropic 的 MCP 代码执行工作展示了一种「服务器文件夹」加载方式，把 context 占用从约 15 万 token 降到了约 2000 token——削减了 98.7%。

**必须把原始数据和提炼数据分开**：通话录音是原始数据；那次通话里做的决定、客户提出的反对意见、续约风险——这些是提炼数据。把两者混在一起，你会淹在录音里。

**溯源**：每个智能体的总结，都必须能追溯到源头——哪个录音，哪张工单，哪个数据库行。没有溯源，公司里会开始充满无法核实的「听起来很对」的总结。

## 03 选最轻的那个

不是所有流程都需要智能体。最好的 AI 原生系统，是脚本、AI 辅助人工、确定性工作流、和智能体的混合体，用最轻的工具处理当前的工作：

- **步骤确定的** → 用脚本（导出报告、转 CSV、跑测试、校验 JSON）
- **输出需要判断才能放出的** → AI 辅助人工（投资人更新、定价文案）
- **步骤已知但链条长的** → 工作流串起来
- **路径真的无法预设时** → 智能体（排查生产 bug、调研市场、处理复杂客户案例）

每个智能体外面必须套一个防护层（harness）。六个阶段：预检→计划→审批→执行→验证→记录。

**安全边界**：防护规则要写进代码和配置，不能只写在提示词里。2025 年 Replit 事件：一个编程智能体在会话途中把生产数据库清空了。提示词指令不是安全边界，只有代码层面的限制才是。

## 04 什么叫做对了

技能（Skills）和评估（Evals）是整个系统的引擎。

**技能**：一套可复用的指令加示例，用于一个重复性任务。每个技能需要：范围、输入、需要加载的 context、步骤、输出格式、示例、升级规则、负责人、运行日志。

如果文件没说它接受什么、返回什么、什么时候求助、谁来维护，那它是个很长的提示词，不是一个技能。

**评估**：让技能复利的东西。一旦有了可用的 eval，提示词调整就变成可选项了：一个小型反思模型提出改动，eval 给改动排名，最好的那个自动上线。没有 eval，每次迭代都是一场口味之争。

**核心指标：接受率**。低于约 70%，技能还没准备好提升自主程度。接受率低的时候，直觉是改提示词——几乎从来不是这个问题。通常是四件事：运行时加载更多 context、收窄技能范围、文件里加更多已完成的示例、或者为智能体不该接的任务写更清楚的升级规则。

## 05 创始人先上

要让团队转向新的运作方式，最快的路是创始人自己先展示。不是在会议室里讲 PPT，是在公司的真实 context 下现场演示：展示从日历、收件箱、Slack 过夜拉取的晨简报；展示昨天通话的客户合成；展示智能体根据需求文档开的测试 PR；展示从最新指标包自动生成的投资人更新草稿。

Jack Dorsey 据报道在 Block 围绕这些工具重组之前，每天早上花几个小时亲自使用这些工具。

**入职也要变**：每个新成员在第一次会话结束时，都要有一个当天可以用的输出。不产生真实工作的培训，下周就被忘了。

**招聘门槛也高了**——招人时，测的不是知识，是判断力。给候选人一个在给定时间内靠人工做不完的任务，看他们怎么指挥智能体做完。你招的是判断力、品味、和当智能体走偏时的纠错能力。

## 06 每周进化

AI 原生创业公司每周改进一次自己的操作系统。

循环分成**内环和外环**：
- **内环**：让现有工作更好——降低每次运行的成本，缩短周期，减少事故，减少审查时间
- **外环**：寻找下一步——新客户群、产品方向、竞争对手动态、流失风险

**硬规则**：任何代码都不能自动合并，没有智能体可以直接写入生产环境。

**真正的天花板**：不是模型能力，是能不能写出 eval。如果你能把「什么是好输出」编码成二元标签、评分标准、或者几个业务指标，循环就能在整个公司的规模上运转。如果不能，再强的模型也填不了这个空。

## 07 护城河是什么

「每个人都有同样的模型；操作系统是秘密武器。」

评论者（深思圈）补充：
- Gershuni 把问题框定成「执行纪律」，但漏掉了一个更根本的东西：判断什么值得编码，本身就是一种稀缺能力，这个能力没法被方法论覆盖。
- 大多数创始人高估自己做的事的战略含量。瓶颈不是纪律，是自我认知的诚实度。
- 如果操作系统真的是护城河，先跑起来的公司每天比你多学一点，而且学习速度还在加速——这不是线性差距，是指数差距。

---

资料来源：cyber.fund · Stepan Gershuni (@cyntro_py) · How to Build an AI-Native Startup · May 2026