---
source_url: "https://mp.weixin.qq.com/s/x8ssQ-trmIqHMPlvQSE9SA"
title: "一篇搞懂 AI Coding Agent 的 Token 成本控制"
source: "腾讯技术工程 / devinyzeng"
ingested: 2026-06-15
sha256: "c3d4e5f6a7b8c9d0e1f2a3b4c5d6e7f8091a2b3c4d5e6f7a8b9c0d1e2f3a4b5"
type: raw
tags: [token-cost, coding-agent, prompt-cache, context-compression, model-routing, code-graph, multi-agent, orchestrator-worker, rtk, caveman, headroom, graphify, codegraph, context-mode, codebuddy]
---

一篇搞懂 AI Coding Agent 的 Token 成本控制

作者：devinyzeng

适用：CodeBuddy、Cursor、Codex、Gemini CLI 等这类 AI Coding Agent。

核心公式：总成本 ≈ 固定前缀 + 会话历史 + 运行时检索 + 工具往返 + 模型输出

第一章 账单都花在哪了

1.1 典型请求结构：System Prompt 5K + 项目说明 10K + Skill 定义 20K + Tool/MCP 定义 30K + 历史会话 100K + 代码文件 50K + 用户问题 0.1K → 贵的是系统塞进去的东西，不是你写的那句话

1.2 "它明明记得"只是一种幻觉——大模型本身通常无状态，所谓记忆只是"再次传入"。三个推论：会话越长后续每轮越贵 / 工具越多常驻定义越重 / 工具调用形成回路

1.3 五种成本：输入 Token（最大头） / 输出 Token / 推理 Token(thinking budget) / 工具往返成本 / 重试成本（最隐蔽）

1.4 Prompt Cache：缓存的是稳定前缀的处理结果，不是"答案"。三个推论：省的是重复成本不是首次 / 缓存是"写稳"不是"写短" / 缓存优化和上下文治理是一回事

1.5 五层模型：使用习惯 → 模型路由 → Context 工程 → 代码图谱 → Agent 架构

第二章 使用习惯（9 条）

1. 一个 Session 一件事
2. 长会话不压缩就是负债
3. 聊天记录不是数据库——长期信息外置
4. 少说废话（同时省输出 + 减少重试）
5. Skill ≠ 免费能力——常驻 vs 按需加载
6. MCP 越多不一定越强——选择空间大→决策慢→错误调用高
7. CLI 优先于 MCP
8. 引用文件时带完整路径（@路径 节省搜索链路）
9. 把意图一次说完，别聊天式拆碎

第三章 模型路由

匹配优先不是便宜优先：复杂→强模型 / 简单→便宜模型 / 重复→稳定模型
升级链路：便宜模型先跑 → 判断复杂度 → 需要才升级
调预算旋钮：reasoning effort / thinking budget / verbosity / max output tokens
Skill/Agent/Command 都应绑定模型（如 SKILL.md 头部 model: deepseek-v4-pro）

第四章 上下文压缩（4 个工具）

RTK：终端输出压缩，30 分钟会话 118K→23.9K（-80%）。cargo test -90%, vitest run -99.6%, grep -80%, git diff -75%
Caveman：AI 回复输出压缩，平均 65-75%。四种模式：lite/full/ultra/wenyan
headroom：所有进上下文的内容压缩，代码搜索 -92%, SRE 故障排查 -92%, GitHub Issue -73%。可逆压缩+按类型路由+按需还原
context-mode：MCP 工具输出沙箱化 315KB→5.4KB（-98%）+ 跨 compact 会话连续性 + ctx_execute 用代码代替读文件

第五章 代码图谱

Graphify：Tree-sitter 构建知识图谱，比直接读文件减少 71.5 倍 Token。22k GitHub stars。30+ 语言
CodeGraph：MCP Server + 持久化图数据库，7 个真实仓库 benchmark：平均 -16% 成本 / -47% Token / -58% Tool Call / -22% 速度。VS Code -64% Token/-81% Tool Call

第六章 多 Agent 协作

subagent 任务隔离：主 session 规划决策 + subagent 执行
Orchestrator-Worker 模式：协调器规划（强模型）+ 子 Agent 执行（便宜模型），每轮成本压缩 5-10 倍
数据流转四原则：(1) 输出格式结构化 JSON (2) 进度文件追踪状态 (3) Worker context 精心裁剪 (4) 临时文件及时清理
并行执行：2 Worker 1.5-1.8x 加速 / 4 Worker 2.8-3.4x 加速
端到端示例：Go 项目 API 重构，单 Agent 800K-1.2M tokens → Orchestrator-Worker 100K-150K tokens（-70~85%）

第七章 六大误区

上下文越多越好 ✗ / MCP 越多越强 ✗ / 所有 Agent 上最强模型 ✗ / 聊天记录当长期记忆 ✗ / 只看单价不看总成本 ✗ / Prompt 越短越好 ✗

第八章 核心公式

更低成本 = 更少重复上下文 + 更合理模型路由 + 更精准代码检索 + 更清晰 Agent 分工