---
source_url: "https://mp.weixin.qq.com/s/ONABFuHsqZqZV1JP6prdfw""
ingested: 2026-06-26
sha256: 08368e4c6892bac6
---
sha256: 9f8ca98853d503be
---
source_url: "https://mp.weixin.qq.com/s/ONABFuHsqZqZV1JP6prdfw"
source: wechat
title: "Vibe Coding 和 Agentic Engineering 融合：Simon Willison 访谈"
author: "InfoQ 编译（宇琪/Tina）"
published: 2026-05-19
created: 2026-05-19
type: article
platform: wechat
tags: [Vibe-Coding, Agentic-Engineering, Simon-Willison, Django, AI-Coding, LLM, claude-code, Codex, Software-Engineering]
  - Vibe-Coding
  - Agentic-Engineering
  - Simon-Willison
  - Django
  - AI-Coding
  - LLM
  - Claude-Code
  - Codex
  - Software-Engineering
sha256: "290f903cced3eebf933398210cb1a9cf9f0831c2f433ff15fa403e8d073f9320"
rating: 8/9.0
review_value: 8
review_confidence: 9
review_result: worth-reading
---
# Vibe Coding 和 Agentic Engineering 融合：Simon Willison 访谈
> 原文：https://www.heavybit.com/library/podcasts/high-leverage/ep-9-the-ai-coding-paradigm-shift-with-simon-willison
> 编译：宇琪、Tina，InfoQ
## 人物背景
Simon Willison：
- Django 联合创始人
- 2002 年起记录 Web 开发、Python 内容，博客 simonwillison.net
- 每年做一次 LLM 年度盘点，还有月刊和周报
- Pelican Riding a Bicycle 测试基准创始人
## 一、"AI 擅长编程"变得不容置疑
Claude Code 去年二月发布后，大家很快意识到：如果你想让用户每月掏 200 美元，代码就是他们愿意买单的核心。
到了十一月，Claude Opus 4.5 和 GPT 5.1 几乎同时发布，那是一个临界点，Coding Agents 变得真正可靠了。
现在它们已经成了很多人的 Daily Driver（日常工具），很多同行甚至说他们 70% 到 80% 的代码都是 Agent 写的。
**以前你想做一个东西，得交给工程团队，等上两到四周才能见到雏形，现在变成了两到四小时。**
## 二、Vibe Coding 和 Agentic Engineering 已经开始融合
**Vibe Coding**：完全不看代码，甚至可能根本不懂编程，只要它跑通了就行；如果不通，就祈祷再试一次能行，你不会在意代码质量或维护性。Vibe Coding 在个人工具层面非常棒，出了 Bug 也就是坑你自己；但如果你是给别人写软件，还搞 Vibe Coding 就是极度不负责任。
**Agentic Engineering**：专业软件工程师的打法。理解安全、可维护性、运维和性能，依靠自己 25 年工程经验，利用这些工具把挑战的规模拉大，目标是构建更高质量的生产系统。
但问题是，随着 Coding Agent 越来越可靠，Simon 也开始不再 Review 每一行代码了。
后来他想通了：这就像在大厂当 Engineering Manager 的时候，信任其他团队交付的模块。除非出了 Bug 或是性能拉胯，否则不会去翻人家的源码。**开始把 Agent 当作一个半黑盒的合作伙伴。**
**关键概念："偏差正常化"——AI 每次写对，都让他更容易在未来某个时刻盲目信任它。但人要为自己的行为负责。**
**关键概念："承重墙"（Load bearing code）——任何安全相关的代码，必须亲自 Review。判断哪些代码涉及安全、哪些不涉及，这种直觉需要深厚的工程经验积累。**
## 三、人类审查成为软件开发新的瓶颈
Joseph（主持人）：SDLC 整个是围绕"一天只能写几百行代码"这个前提设计的，现在这个前提不存在了。如果把人类 Review 这个瓶颈也移除了，下游的所有流程是不是都会崩溃？
**Simon：百分之百。**
Anthropic 设计负责人 Jenny Wen 的观点：传统的 UI/UX 设计流程是为了确保"一次性做对"，因为如果设计错了，交给工程师花三个月做出来才发现不行是灾难性的。但如果构建一个东西不需要三个月，设计流程或许可以承担更大的风险。
## 四、并行 Agent 做 Spikes
Simon：现在我开始同时开多个 Coding Agent 跑不同的 Spike。尤其在做 Spikes 的时候。
可以一边让网页版的 Claude Code 跑一个 Spike 去探索方案 A，同时让 Codex 在这边跑方案 B，而他本人则在处理其他真正的工作。
以前觉得同时开五个 Agent 纯属胡闹，因为要 Review 代码；但现在做 Spikes 时这么干非常有效。
## 五、代码"本体感觉"（Proprioception）丧失风险
最敏锐的观察：**代码库终会变成一层层你没有参与决策的碎片，而你不再亲手写代码，也就失去了那种"这样加东西会有很大张力"的本能反应。**
风险不在于 AI 写坏代码，而在于**开发者丧失辨别坏代码的能力。**
## 六、真正重要的不再是代码本身
**Simon：真正重要的不再是代码本身。代码正在贬值，但结构、接口和确定性数据层的价值反而在提升。Agent 带来的非确定性，恰恰让那些能够减少非确定性、提供稳定边界的东西变得更加珍贵。**
如果要从头做一个 Issue Tracker（比如仿照 GitHub Issues 或 Linear），会投入全部精力去设计一个极佳的核心数据库 Schema，把 Issue、评论、标签、里程碑这些关系的逻辑打磨得极其扎实。然后把模式转化成一套极其稳健的 API。至于上面的 UI，完全可以用 Vibe Code 去搓。**数据模型做对了，用户可以拥有无限的自定义灵活性。**
## 七、AI 时代的"结对编程"
Claude 说"分三步走"，由人来负责敲键盘。这种训练模式能让你既不用跑三个工位去求助老司机找分号，又必须亲自经历那种"动手写"的过程。
结对编程最棒的一点就是有人帮你查资料，而你敲代码时模型干这事儿简直无懈可击。
## 八、代码强化学习
OpenAI 和 Anthropic 在 2025 年把几乎所有的算力预算都砸在了"针对模拟软件环境的强化学习"上。他们开启了数万台带 Python 解释器的虚拟机，生成代码，跑一遍，看结果：跑通了就点赞，崩了就差评。
Qwen 的论文里也提到过动用一万台虚拟机做这件事。
xAI 和 Gemini 稍微落后的原因，就是因为他们没能在 2025 年整年都在代码强化学习的闭环里狂奔。
## 九、中国模型崛起
Simon：过去一年半一直在密切关注中国的 AI 实验室，因为他们真的出了不少好东西。目前至少有五家极具竞争力的中国实验室，出的模型只比头部的闭源模型落后三到六个月。
- **Qwen 3.6-27B**：只需要约 20GB 内存，在配置不错的笔记本上就能跑得飞快。能力感觉和半年前甚至一年前的头部闭源模型旗鼓相当。
- **DeepSeek** 比 Claude Opus 便宜 20 倍，跑分表现可没比 Opus 弱 20 倍。
## 十、"AI 反弹"背后的真实情绪
Nilay Patel (The Verge) 的文章《人类并不渴望自动化》（The People Do Not Yearn for Automation）是关于"AI 反弹"浪潮中最好的评论。
AI 现在的受欢迎程度可能还不如 ICE（美国移民海关执法局）。尤其是在 Z 世代里，最常使用它的人反而最讨厌它。
核心观点：搞软件的人会为了"自动化一切"而兴奋，但这套逻辑对普通人行不通。
## 十一、涨价与定价博弈
光本周就迎来了两次大幅涨价。Opus 4.7 单价没变，但分词器变了，处理同样内容的 Token 数多了 40%，相当于变相涨价。GPT 5.5 在 API 上的价格直接比 5.4 翻了一倍。
开源权重模型（尤其是中国的模型）在把价格往相反的方向拽。希望这些开源模型形成的力量能抵消掉那些急着 IPO 的公司想要赚取实际利润的冲动。