--- title: "deepseek-cost-migration-system-layer-kv-cache-harness" created: 2026-06-10 type: raw sha256: 4f2672301f0b9f2443eb3931ecca919e57af55dbfc1b9a3d2cd8876da7bbc41d --- # 从 KV Cache 到 Harness:DeepSeek 正在把成本搬到系统层 source_url: https://mp.weixin.qq.com/s/vlIMBcywGL7Xy9_Yc8iJQQ source: 架构师 (JiaGouX) author: 若飞 published: 2026-05-25 score: 9×8=72 ## 摘要 DeepSeek 的核心价值越过"模型便宜"本身,落到了"模型之外"的系统层:缓存、内存、存储、编译器、调度、硬件适配,以及让模型变成 Agent 的 Harness。成本从 GPU/HBM 层往系统层搬移,MoE/MLA/Engram/TileLang 各司其职。 ## 核心论点 DeepSeek 能不能定义工作负载——用模型架构、推理接口、缓存机制、Agent Harness 和开源工程,让硬件厂商、云厂商、推理框架、开发者工具都围绕它的负载来优化。 ## 技术演进 - V2: MLA 压缩 KV Cache↓93.3%,训练成本↓42.5%,吞吐↑5.76x - V4: 1.6T 总参/49B 激活(Pro),默认 1M 上下文 - Engram: 静态知识用查表替代计算,改变硬件分工 ## Harness 层 便宜模型≠便宜 Agent。模型便宜只是单次推理价格压下去,成本在环境/工具/上下文/重试/评估/审计/回滚里重新出现。 ## 五大后续信号 价格持续性 / 硬件实质适配 / 开源工程落地 / Harness 产品真实运行 / 商业协议披露