--- source_url: "https://mp.weixin.qq.com/s/ONABFuHsqZqZV1JP6prdfw"" ingested: 2026-06-26 sha256: 08368e4c6892bac6 --- sha256: 9f8ca98853d503be --- source_url: "https://mp.weixin.qq.com/s/ONABFuHsqZqZV1JP6prdfw" source: wechat title: "Vibe Coding 和 Agentic Engineering 融合:Simon Willison 访谈" author: "InfoQ 编译(宇琪/Tina)" published: 2026-05-19 created: 2026-05-19 type: article platform: wechat tags: [Vibe-Coding, Agentic-Engineering, Simon-Willison, Django, AI-Coding, LLM, claude-code, Codex, Software-Engineering] - Vibe-Coding - Agentic-Engineering - Simon-Willison - Django - AI-Coding - LLM - Claude-Code - Codex - Software-Engineering sha256: "290f903cced3eebf933398210cb1a9cf9f0831c2f433ff15fa403e8d073f9320" rating: 8/9.0 review_value: 8 review_confidence: 9 review_result: worth-reading --- # Vibe Coding 和 Agentic Engineering 融合:Simon Willison 访谈 > 原文:https://www.heavybit.com/library/podcasts/high-leverage/ep-9-the-ai-coding-paradigm-shift-with-simon-willison > 编译:宇琪、Tina,InfoQ ## 人物背景 Simon Willison: - Django 联合创始人 - 2002 年起记录 Web 开发、Python 内容,博客 simonwillison.net - 每年做一次 LLM 年度盘点,还有月刊和周报 - Pelican Riding a Bicycle 测试基准创始人 ## 一、"AI 擅长编程"变得不容置疑 Claude Code 去年二月发布后,大家很快意识到:如果你想让用户每月掏 200 美元,代码就是他们愿意买单的核心。 到了十一月,Claude Opus 4.5 和 GPT 5.1 几乎同时发布,那是一个临界点,Coding Agents 变得真正可靠了。 现在它们已经成了很多人的 Daily Driver(日常工具),很多同行甚至说他们 70% 到 80% 的代码都是 Agent 写的。 **以前你想做一个东西,得交给工程团队,等上两到四周才能见到雏形,现在变成了两到四小时。** ## 二、Vibe Coding 和 Agentic Engineering 已经开始融合 **Vibe Coding**:完全不看代码,甚至可能根本不懂编程,只要它跑通了就行;如果不通,就祈祷再试一次能行,你不会在意代码质量或维护性。Vibe Coding 在个人工具层面非常棒,出了 Bug 也就是坑你自己;但如果你是给别人写软件,还搞 Vibe Coding 就是极度不负责任。 **Agentic Engineering**:专业软件工程师的打法。理解安全、可维护性、运维和性能,依靠自己 25 年工程经验,利用这些工具把挑战的规模拉大,目标是构建更高质量的生产系统。 但问题是,随着 Coding Agent 越来越可靠,Simon 也开始不再 Review 每一行代码了。 后来他想通了:这就像在大厂当 Engineering Manager 的时候,信任其他团队交付的模块。除非出了 Bug 或是性能拉胯,否则不会去翻人家的源码。**开始把 Agent 当作一个半黑盒的合作伙伴。** **关键概念:"偏差正常化"——AI 每次写对,都让他更容易在未来某个时刻盲目信任它。但人要为自己的行为负责。** **关键概念:"承重墙"(Load bearing code)——任何安全相关的代码,必须亲自 Review。判断哪些代码涉及安全、哪些不涉及,这种直觉需要深厚的工程经验积累。** ## 三、人类审查成为软件开发新的瓶颈 Joseph(主持人):SDLC 整个是围绕"一天只能写几百行代码"这个前提设计的,现在这个前提不存在了。如果把人类 Review 这个瓶颈也移除了,下游的所有流程是不是都会崩溃? **Simon:百分之百。** Anthropic 设计负责人 Jenny Wen 的观点:传统的 UI/UX 设计流程是为了确保"一次性做对",因为如果设计错了,交给工程师花三个月做出来才发现不行是灾难性的。但如果构建一个东西不需要三个月,设计流程或许可以承担更大的风险。 ## 四、并行 Agent 做 Spikes Simon:现在我开始同时开多个 Coding Agent 跑不同的 Spike。尤其在做 Spikes 的时候。 可以一边让网页版的 Claude Code 跑一个 Spike 去探索方案 A,同时让 Codex 在这边跑方案 B,而他本人则在处理其他真正的工作。 以前觉得同时开五个 Agent 纯属胡闹,因为要 Review 代码;但现在做 Spikes 时这么干非常有效。 ## 五、代码"本体感觉"(Proprioception)丧失风险 最敏锐的观察:**代码库终会变成一层层你没有参与决策的碎片,而你不再亲手写代码,也就失去了那种"这样加东西会有很大张力"的本能反应。** 风险不在于 AI 写坏代码,而在于**开发者丧失辨别坏代码的能力。** ## 六、真正重要的不再是代码本身 **Simon:真正重要的不再是代码本身。代码正在贬值,但结构、接口和确定性数据层的价值反而在提升。Agent 带来的非确定性,恰恰让那些能够减少非确定性、提供稳定边界的东西变得更加珍贵。** 如果要从头做一个 Issue Tracker(比如仿照 GitHub Issues 或 Linear),会投入全部精力去设计一个极佳的核心数据库 Schema,把 Issue、评论、标签、里程碑这些关系的逻辑打磨得极其扎实。然后把模式转化成一套极其稳健的 API。至于上面的 UI,完全可以用 Vibe Code 去搓。**数据模型做对了,用户可以拥有无限的自定义灵活性。** ## 七、AI 时代的"结对编程" Claude 说"分三步走",由人来负责敲键盘。这种训练模式能让你既不用跑三个工位去求助老司机找分号,又必须亲自经历那种"动手写"的过程。 结对编程最棒的一点就是有人帮你查资料,而你敲代码时模型干这事儿简直无懈可击。 ## 八、代码强化学习 OpenAI 和 Anthropic 在 2025 年把几乎所有的算力预算都砸在了"针对模拟软件环境的强化学习"上。他们开启了数万台带 Python 解释器的虚拟机,生成代码,跑一遍,看结果:跑通了就点赞,崩了就差评。 Qwen 的论文里也提到过动用一万台虚拟机做这件事。 xAI 和 Gemini 稍微落后的原因,就是因为他们没能在 2025 年整年都在代码强化学习的闭环里狂奔。 ## 九、中国模型崛起 Simon:过去一年半一直在密切关注中国的 AI 实验室,因为他们真的出了不少好东西。目前至少有五家极具竞争力的中国实验室,出的模型只比头部的闭源模型落后三到六个月。 - **Qwen 3.6-27B**:只需要约 20GB 内存,在配置不错的笔记本上就能跑得飞快。能力感觉和半年前甚至一年前的头部闭源模型旗鼓相当。 - **DeepSeek** 比 Claude Opus 便宜 20 倍,跑分表现可没比 Opus 弱 20 倍。 ## 十、"AI 反弹"背后的真实情绪 Nilay Patel (The Verge) 的文章《人类并不渴望自动化》(The People Do Not Yearn for Automation)是关于"AI 反弹"浪潮中最好的评论。 AI 现在的受欢迎程度可能还不如 ICE(美国移民海关执法局)。尤其是在 Z 世代里,最常使用它的人反而最讨厌它。 核心观点:搞软件的人会为了"自动化一切"而兴奋,但这套逻辑对普通人行不通。 ## 十一、涨价与定价博弈 光本周就迎来了两次大幅涨价。Opus 4.7 单价没变,但分词器变了,处理同样内容的 Token 数多了 40%,相当于变相涨价。GPT 5.5 在 API 上的价格直接比 5.4 翻了一倍。 开源权重模型(尤其是中国的模型)在把价格往相反的方向拽。希望这些开源模型形成的力量能抵消掉那些急着 IPO 的公司想要赚取实际利润的冲动。