---
title: "DeepSeek V4 详解：1M 上下文背后，真正发生了什么"
source: wechat
url: https://mp.weixin.qq.com/s/OkJjRqTwRV2z0Xw9T6Likg
ingest_date: 2026-07-04
vxc: 64
stars: 4
sha256: a4f61fa7ddcfd8d17fff98e4b9d798c76378cc3f5ea800b256f275a5625c9c72
---

# DeepSeek V4 详解：1M 上下文背后，真正发生了什么

**来源**: 架构师

**发布日期**: 2026-04-25

**原文链接**: https://mp.weixin.qq.com/s/OkJjRqTwRV2z0Xw9T6Likg

---

架构师（JiaGouX）

我们都是架构师！

架构未来，你来不来？

DeepSeek V4 昨天发了。准确说，是 preview 版本：  DeepSeek-V4-Pro  和  DeepSeek-V4-Flash  ，权重已经挂在 Hugging Face 上，技术报告同步公开。

我自己第一遍看的时候，注意力先被几行字抓住——1.6T 总参、49B 激活、1M 上下文、Pro/Flash 双线开源。再往下翻技术报告，感觉就不太一样了。

它更像 DeepSeek 在认真回答一个工程问题：

当上下文来到 1M token 这一档，模型、推理系统、缓存、搜索、Agent 工作流，要怎么一起变化，才不至于把成本和状态拖到失控。

官方帖子里有句话很扎眼——"Welcome to the era of cost-effective 1M context length"。这其实就是这次发布想立的旗。

今天反复翻 PDF，又顺手把 V3.2 的几条线、  Claude Code 的 Prompt Caching  那篇翻出来对了一遍，越看越觉得：

V4 这次最该细看的，不是窗口大小。是它把"百万上下文够不够便宜"这件事，拆成了一串互相咬合的工程问题。

我们挑几个看起来比较有信息量的事情看看。

## 太长不看版

- • V4 的 1M 不是单纯把窗口拉大。它把"FLOPs、KV cache、共享前缀复用、推理预算"这些原本散落在不同地方的成本，全收进一张工程图。

- • 在 1M 场景下，V4-Pro 相对 V3.2 的单 token FLOPs 降到 27%，KV cache 降到 10%；V4-Flash 更激进，分别是 10% 和 7%。这是这次发布最硬的一组底层数据。

- • 注意力换成 CSA + HCA 混合，残差换成 mHC，优化器换成 Muon，再叠 FP4/FP8 混合精度——单点都不算颠覆，串起来才是 V4。

- • KV cache 不再被当成"分页存张量"，而是被当成一个有生命周期、有压缩粒度、有命中策略的存储系统在管。on-disk KV cache 是为 Agent 这种"反复共享前缀"的场景留的口子。

- • 推理强度被显式拆成 Non-think / Think High / Think Max 三档，等于把推理成本做成了一个产品接口。

- • 后训练换路了：先养 4 个领域专家，再用 On-Policy Distillation 把它们合到一个模型里，替掉了 V3.2 那套 mixed RL。

- • 白领任务那段调侃 Claude "只会列 bullet points" 很容易被记住，但报告里也老老实实承认：复杂指令和多轮写作上，Claude Opus 4.5 还领先。

- • 真要落到自己做 Agent 的人身上，V4 给的三件事更实在：长上下文成本能压、推理预算可分档、搜索和工具被纳进了模型级工作流。

## 先别被"1M"这个数字带跑

这两年长上下文几乎成了发布会的固定节目。200K、1M、2M、4M，数字越写越大。

但只要真跑过长任务 Agent 的人都知道，窗口大只是第一步。

更难的，其实是这三件事：

- • 这么长的上下文，每轮 prefill 算得起吗？

- • KV cache 存得下、调得动、能不能复用？

- • 塞进窗口的东西，到底还在帮当前任务，还是已经在干扰它？

第一件是计算账。第二件是系统账。第三件是上下文治理账。

之前分析《  1M 上下文不是终点  》时就提过一句话：窗口变大之后，装得下只是开始，装进去之后还好不好使，才是长任务里更麻烦的部分。再回看《  Claude Code 为什么缓存命中率能做到 92%  》，长任务的成本大头很多时候不在输出，而在老前缀被每一轮重复 prefill。

DeepSeek V4 这次有意思的地方，就在这里。

它没停在"我支持 1M"这一句。报告从架构、训练、推理、后训练、搜索、白领任务，一整套都在围绕同一个问题展开：

怎样让超长上下文从"能跑"，变成"可以常态化使用"。

如果把它和最近几篇上下文、缓存、Harness 文章放在一起看，脉络会更清楚：

- • 《
  1M 上下文不是终点
  》讲的是容量变大之后，状态管理反而更难。

- • 《
  Claude Code 为什么缓存命中率能做到 92%
  》讲的是稳定前缀、动态尾部和缓存命中的经济账。

- • 《
  Agent Harness 综述
  》讲的是模型外面那套工具、权限、状态和验证系统。

V4 报告把这三件事的一部分往模型底座里收了：注意力成本它收了一刀，KV cache 系统化它收了一刀，搜索和工具调用也被纳进了同一套后训练和推理框架。

放在一起看，开源模型的竞争已经在往下一层走。参数和 benchmark 还重要，但更难的是把这套底层工程做顺手。

## 第一刀：让注意力别再按原价付费

Transformer 的老问题大家都熟——窗口越长，attention 和 KV cache 就越容易变成瓶颈。

V4 的做法是把注意力拆成两条压缩路线交错用：

- •
  CSA（Compressed Sparse Attention）
  ：先把每
  m
  个 token 压缩成一个 KV entry，再用稀疏选择让每个 query 只看 Top-k 的压缩 KV。

- •
  HCA（Heavily Compressed Attention）
  ：用更激进的压缩率
  m'
  ，但保持稠密注意力，不走稀疏。

直白点说，CSA 像"压完再挑重点看"，HCA 像"压得更狠，但仍然完整扫一遍压缩表示"。

两种机制交错，是为了同时回避两个极端：

- • 不能每个 token 都按原始粒度完整看，太贵。

- • 也不能只靠局部窗口或粗暴截断，信息会丢。

可以先看看这个图：

V4 没把 1M token 原封不动扔给传统 attention。它先把"看什么、怎么看、看多细"分了层。

效率数字也顺着这条路线展开。1M 场景下，V4-Pro 相对 V3.2 的单 token FLOPs 降到 27%，KV cache 降到 10%；V4-Flash 更激进，分别是 10% 和 7%。

还有一个容易被忽略的对比：以常见的 BF16 GQA8 作为基线，V4 系列在 1M 上下文下的 KV cache 可以降到大约 2%。

这说明 DeepSeek 的目标已经越过"窗口拉到 1M"这一层。它更想证明的是：百万窗口的边际成本得能压下去。

## mHC、Muon、FP4：这些不是论文装饰

光看 CSA 和 HCA，容易把 V4 误读成一篇"注意力优化"论文。

PDF 里实际写得更重。V4 保留了 DeepSeekMoE 和 MTP，但在 V3 基础上又补了三块：mHC、混合注意力、Muon。

mHC 全称 Manifold-Constrained Hyper-Connections，被报告单独拎出来讲。它处理的是深层堆叠时的信号传递稳定性，和长上下文成本是两条线。

标准 Hyper-Connections 会扩展 residual stream，堆多层之后容易出现数值不稳定。mHC 的做法，是把残差映射矩阵约束到双随机矩阵所在的流形（Birkhoff polytope），把映射矩阵的谱范数压在 1 以内，让残差变换不扩张。

公式不必背，记一句话就行：

CSA / HCA 让长上下文算得起，mHC 让更深、更复杂的模型训得稳。

Muon 是优化器层面的事。报告说 V4 对大多数模块用 Muon，只在 embedding、prediction head、mHC 的静态 bias / gating factor、RMSNorm 这些位置保留 AdamW。Muon 的正交化用了 hybrid Newton-Schulz iteration，配合 Nesterov trick 和 RMS rescaling。

我注意到一个工程细节：DeepSeek 没有只说"用了新优化器"。它把 ZeRO bucket 分配、mHC fused kernel、选择性 recomputation、DualPipe 1F1B 调整这些配套实现也都写了。mHC 本身会增加激活内存和 pipeline 通信量，报告给出的优化结果是把 mHC 的 wall-time overhead 控制在 1F1B pipeline stage 的 6.7%。

这是 DeepSeek 一贯的风格——不肯只让你看到结果，多少还要把代价告诉你。

往部署侧再走一步，V4 的 FP4 也不是孤立的量化卖点。报告里 FP4 主要用在两处：

- •
  MoE expert weights
  ，降低专家参数的显存和访存压力。

- •
  CSA indexer 的 QK path
  ，加速超长上下文里的 attention score 计算。

它还提到 top-k selector 因相关量化拿到 2 倍加速，同时保留 99.7% 的 KV entry recall。

合起来看 V4 的技术路线，会清楚很多：

层次
解决的问题
PDF 里的关键设计

注意力
1M 上下文太贵
CSA + HCA

残差连接
深层训练稳定性
mHC

优化器
收敛与训练稳定性
Muon + hybrid Newton-Schulz

精度
访存、显存、超长 attention 成本
FP4 / FP8 mixed

推理服务
异构 KV cache 和共享前缀复用
customized KV layout + on-disk KV cache

再补一组基座的数字。V4-Pro-Base 在预训练阶段消化了超过 32T token：

Benchmark
V3.2-Base（37B 激活）
V4-Flash-Base（13B 激活）
V4-Pro-Base（49B 激活）

MMLU
87.8
88.7
90.1

MMLU-Pro
65.5
68.3
73.5

C-Eval
90.4
92.1
93.1

SimpleQA-Verified
28.3
30.1
55.2

HumanEval
62.8
69.5
76.8

LongBench-V2
40.2
44.7
51.5

我看下来有几个点比较有意思：V4-Flash-Base 只用 13B 激活（仅 V3.2-Base 的 35%），多数知识任务已经追平甚至反超 V3.2-Base；V4-Pro-Base 在知识密集任务上跳升最猛，说明 32T 训练数据在事实知识上的回报很扎实；LongBench-V2 从 40.2 提到 51.5，则印证了混合注意力在长上下文理解上的实际收益。

所以"效率账"要放到前面讲。V4 的 1M 上下文靠的是一串互相咬合的系统优化，单点技巧撑不起来。

## 第二刀：KV cache 被当成系统在管

长上下文的成本，不只来自一轮模型计算。

更麻烦的，其实是 KV cache。

传统 PagedAttention 这类方案，默认你处理的是相对规整的 KV block。但 V4 的混合注意力会冒出多种 KV：CSA/HCA 的压缩 KV、Sliding Window 的最近窗口 KV、还没凑够压缩块的 tail state。

KV cache 管理因此从"分页存张量"，变成"管理一堆策略不同的状态"。

报告里专门写了 V4 的 KV cache layout：一部分是 classical KV cache，负责 CSA/HCA 的压缩条目；另一部分是 state cache，负责 SWA 和未压缩尾部状态。state cache 给每个请求分配固定大小的 cache block；classical KV cache 则按  lcm(m, m')  覆盖原始 token，兼容 CSA 和 HCA 的不同压缩率。

放到工程现场，可以这么理解：

V4 把长上下文推理里的 KV cache，当成了一个有生命周期、有压缩粒度、有命中策略的存储系统在设计。

这里和我们前面写 Claude Code Prompt Caching 那篇能对上。Claude Code 那边讲的是稳定前缀如何复用，V4 这里更底层——直接在模型服务侧处理混合注意力产生的异构 cache。

报告还专门提到 on-disk KV cache storage，用来消除 shared-prefix 请求中的重复 prefill。它把压缩 KV、SWA KV、尾部重算策略都分开做了存储设计。意思很明白：单次长上下文推理要省，多个共享前缀请求之间也要省。

这对 Agent 特别关键。

真实 Agent 任务里，请求之间往往有大量共享前缀：系统提示、工具定义、项目规则、已读文档、任务 brief。只要这些前缀稳定组织，命中就能把长任务成本一直摁在低位。

我的看法是：模型窗口变大之后，谁能把 KV cache 做成可复用资产，谁就能更便宜地跑长任务。这和 Prompt Caching 那篇是一条线——稳定前缀别乱动，动态尾部往后长，系统才有机会复用算过的状态。

## 第三刀：推理预算被分成三档

V4 的 Instruct 模型支持三种推理强度：

模式
特点
适合场景

Non-think
快速、直觉式回答
日常任务、低风险决策

Think High
有意识的逻辑分析
复杂问题、规划、分析

Think Max
最大化推理投入，推荐上下文 ≥ 384K
探索能力边界、困难题

看起来像产品功能，实际上是成本控制接口。

同一个模型，不同任务不该一律烧最高推理预算。写一封普通邮件、查一个事实、做一次复杂代码修复、跑一份长文档分析——成本结构完全不同。统一上 Max，看着"更强"，其实是在烧预算，也会拉高延迟。

报告的标准评测里，Max 模式确实把 V4-Pro 推到很高：SimpleQA-Verified 57.9、Chinese-SimpleQA 84.4、LiveCodeBench 93.5、Codeforces Rating 3206、Apex Shortlist 90.2、Terminal Bench 2.0 67.9、SWE Verified 80.6、Toolathlon 51.8。

但表格里也藏着另一面：很多任务上 High 和 Max 的差距并不大；Flash 给够 thinking budget 后，部分推理任务可以追近 Pro。报告对 Flash 的定位也克制——推理任务给够预算后接近 Pro，但知识类任务和高难 Agent workflow 仍会落后。

我的理解是：

模型能力要分层用，"最强模式"不应该是默认模式。

未来做 Agent，更稳的策略大概率是：

- • 默认 Non-think 处理低风险、可恢复的小任务。

- • 规划、代码审查、跨文档分析用 Think High。

- • 只有数学、复杂推理、关键设计评审这种场景，才升 Think Max。

这和传统系统里的资源分级是同一个逻辑——所有请求都走最高规格，成本和延迟很快会变得难看。

PDF 里还有一个细节我留意了一下：V4 在 tool-calling 场景里，会保留完整 reasoning content，跨多轮用户消息也保留。报告明确说这和 V3.2 不同，V3.2 会在每个新用户 turn 丢弃 thinking traces。

但它并不是所有场景都这么做。普通对话场景里，旧的 reasoning content 仍会在新用户消息后被丢掉。

这条边界很关键。

工具任务通常是长链路：查资料、执行工具、读取结果、修正路径、继续下一步。这里保留推理历史，可以让模型维持一条累积的任务线索。普通聊天如果也一直保留，反而会把历史想法越堆越重。

这和前面写 Claude Code 会话管理时讲的是同一件事：长上下文要按场景来管——什么留下、什么丢掉。

## 中文白领任务：别只看那句"调侃 Claude"

V4 报告里有一段话，最近应该会被很多人记住。

在白领任务评测里，DeepSeek 直接拉来 Claude Opus 4.6 Max 做对比，原文里有这么一句：

"It also excels in long-form generation, delivering in-depth, coherent narratives rather than relying on the overly simplistic bullet points frequently produced by Opus-4.6-Max ."

翻译过来大意是：V4-Pro-Max 长文生成更深入、更连贯，不像 Opus-4.6-Max 那样动不动就糊几个 bullet points 上来。

这句话挺少见。技术报告通常写得很克制，很少这么直接点名同行。

但我不太想把这段只看成"DeepSeek 嘲讽 Claude"。更有信息量的是：DeepSeek 为什么要单独构造一组中文白领任务。

DeepSeek 自建了 30 个高级中文职业任务，覆盖金融、教育、法律、科技等 13 个行业。评测环境是一个内部 agent harness，带 Bash 和 web search 等基础工具。人工评审从四个维度打分：

- •
  Task Completion
  ：核心问题是否解决。

- •
  Instruction Following
  ：是否遵守约束和指令。

- •
  Content Quality
  ：事实准确性、逻辑连贯性、专业口吻。

- •
  Formatting Aesthetics
  ：排版可读性和视觉呈现。

结果是：

任务类型
V4-Pro-Max 胜
平
Opus-4.6-Max 胜

analysis
55.0%
8.0%
37.0%

generation
52.0%
10.0%
38.0%

editing
47.0%
18.0%
35.0%

overall
53.0%
10.0%
37.0%

细分维度也挺有意思：

维度
V4-Pro-Max
Opus-4.6-Max

Task Completion
98.32
96.68

Instruction Following
87.76
88.88

Content Quality
83.32
78.00

Formatting Aesthetics
76.68
72.68

Overall
86.52
84.06

这组数据可以拆成两层看。

第一层是能力。DeepSeek 在中文白领场景里确实有强势的一面，尤其是长文生成、内容质量、中文专业文档结构。

第二层是边界。Claude 的复杂指令遵循仍然很硬。V4 在 Instruction Following 上反而略低。

所以这里不好简单写成 "Claude 不行了" 。我更倾向于这样看：

DeepSeek V4 在中文职业写作和成稿型任务上更主动、更完整；Claude 在复杂约束和多轮稳定性上仍然很硬。

报告后面 Table 14 也印证了这个边界。在复杂指令跟随和多轮写作上，DeepSeek-V4-Pro 对 Claude Opus 4.5 的总体胜率是 45.9% vs 52.0%。其中复杂指令跟随 46.9% vs 53.1%，多轮写作 45.6% vs 51.7%。

那句 bullet points 很醒目，但不能替代完整的能力边界。

## 中文写作：考的其实是交付能力

报告里还有一组对中文用户很重要的数据：DeepSeek-V4-Pro 对 Gemini-3.1-Pro 的中文功能写作评测。

总体胜率 62.7% vs 34.1%。

报告给出的解释挺直接：Gemini-3.1-Pro 有时会让自己的固有风格偏好，覆盖用户的明确要求。

写过中文长稿的人大概都见过这种情况——模型明明会写，却很容易"写成它自己喜欢的样子"。

这件事已经超出了文风问题。

对企业里的白领任务，写作能力经常不等于"文采"。它更像下面这些能力的组合：

- • 能不能听懂约束。

- • 能不能保住结构。

- • 能不能在长文本里维持同一套口径。

- • 能不能把材料组织成可交付文档。

- • 能不能在格式、标题、层级、编号上符合本地习惯。

DeepSeek 选择在中文职业写作上做这么细的评测，说明它很清楚自己的核心使用场景：数学榜和代码榜要跑，API 和 Chatbot 的真实用户场景也要做强。

这也是 V4 报告里比较务实的一面。它没有只用公开评测证明"我很强"，还把中文写作、搜索、白领任务、代码 Agent 这些真实任务单独拎出来评估。

至少它让我们知道：V4 的优化目标不是抽象的"通用智能"，它瞄准的是 API、Chatbot 和企业生产力场景里的具体任务。

## Search 和 Agent：模型开始有"工作流意识"

V4 报告里的 Search 部分，我也想专门拎出来说一下。

DeepSeek 把聊天产品里的搜索分成两种：

- •
  Non-think 模式
  ：用 Retrieval-Augmented Search，也就是更传统的 RAG。

- •
  Thinking 模式
  ：用 agentic search，让模型可以围绕一个问题多次调用 search 和 fetch。

内部评测里，Agentic Search 对 RAG 的总体胜率是 61.7% vs 18.3%，平 20.0%。平均工具调用次数 16.2 次，prefill token 也比 RAG 高一些，但报告认为成本只是边际增加。

这组数字放到一起看，重点不在"搜索更准了"这一层。

更有意思的是，DeepSeek 已经把搜索看成模型推理过程的一部分，而不是一个挂在外面的检索模块。

这和前面写 Harness 时讲的内容能接上：

Prompt 管怎么说，Context 管模型看到什么，Harness 管系统怎么跑。Agentic Search 其实就是把搜索工具、抓取工具、thinking budget 合在一起，组成了一个小型 harness。

如果再叠上 V4 的 Quick Instruction 设计，就更明显了。

报告说，聊天场景里很多辅助任务，比如是否触发网页搜索、意图识别，以前可能要再训一个小模型。V4 的做法是在输入序列里追加专门的 special tokens，让这些辅助任务直接复用已经算好的 KV cache，避免重复 prefill。

这个细节很 DeepSeek——能少一套外围系统，就少一套。

它说明 DeepSeek 想省的，除了主模型推理成本，还有"外部小模型 + 重复 prefill + 额外系统复杂度"这类隐性成本。

## Code Agent：报告给了能力，也给了边界

V4 报告还有一个容易被快讯略过的部分：Code Agent。

DeepSeek 没只拿公开代码榜说话。它从内部真实研发工作负载里收集任务——原始任务大约 200 个，来自 50 多位内部工程师，覆盖 feature development、bug fixing、refactoring、diagnostics，技术栈包括 PyTorch、CUDA、Rust、C++。经过质量过滤后，保留 30 个任务作评测集。

这点和我们在 Harness 系列里反复说的内容很接近：代码 Agent 的能力，不能只看"模型会不会写一段代码"。更要看它能不能在真实仓库、真实环境、真实评分规则里完成任务。

报告里的用户调查也可以一起看。DeepSeek 问了 85 位日常用 V4-Pro 做 agentic coding 的内部开发者和研究员：相比其他前沿模型，V4-Pro 能不能作为默认主力 coding model？

结果：

- • 52% 回答 yes。

- • 39% 倾向 yes。

- • 少于 9% 回答 no。

这是内部调查，要注意来源边界。但报告没只写好话，还列了问题：trivial mistakes、misinterpretation of vague prompts、occasional over-thinking。

翻成工程语言，就是三类老问题还在：

- •
  小错误
  ：局部实现、边界条件、格式或调用细节出错。

- •
  模糊需求误读
  ：prompt 不清楚时，模型会自作主张。

- •
  过度思考
  ：该直接做的任务，被拉成长推理链。

这也解释了为什么我不太愿意把 V4 这次写成"开源模型全面追平闭源"。

更稳的说法是：

V4-Pro 已经能在一批真实 coding agent 任务里承担主力模型角色，但它仍然需要清晰任务、可执行环境、测试闭环和 Harness 约束。

这和《  模型差距在缩小，Harness 差距在放大  》正好接上。模型越强，越容易让人忽略外层系统。但只要任务进入真实仓库，最后拼的仍然是上下文、工具、权限、状态、验证和回滚。

## 后训练：先养专家，再合成一个模型

V4 的后训练路线也很关键：先训练多个领域专家，再通过 OPD 合到一个统一模型里。

报告里说，DeepSeek 先用 SFT 和 GRPO 培养数学、代码、Agent、指令遵循等领域的专家，然后用 On-Policy Distillation 做多教师蒸馏，让统一模型学习这些专家在自己生成轨迹上的输出分布。按 PDF 的写法，V4 的最终后训练阶段把 V3.2 中的 mixed RL stage 替换成了 OPD。

可以翻译成一个更直观的工程流程：

基础模型

领域专家训练数学 / 代码 / Agent / 指令遵循

多个教师模型

On-Policy Distillation学生在自身轨迹上学习教师分布

统一模型DeepSeek-V4 Instruct

这个路线的好处，是可以把不同能力先分开打磨，再合并到一个用户可用的模型里。

代价也明显——OPD 基础设施很重。报告里提到 full-vocabulary OPD、超过十个教师模型、教师权重按需加载、长上下文 RL/OPD rollout、token 级 WAL、可抢占和容错的生成服务。

这里有一个很细的正确性问题：如果生成任务被抢占，不能简单从头重生成，否则会引入 length bias。DeepSeek 的做法是用 token 级 WAL 和保存的 KV cache 继续 decoding；遇到致命错误时，也可以用 WAL 里的 token 重新 prefill 来恢复 KV cache。

这些内容对普通用户不直接可见，但对模型公司很关键。模型竞争已经从"训一个大模型"，延伸到后训练、蒸馏、rollout、容错、量化、推理服务这些环节。

## Pro 和 Flash：怎么理解这条产品线

DeepSeek V4 的产品线分成 Pro 和 Flash。

官方 Hugging Face collection 目前有 4 个模型，发布一天累计了近 500 个 upvote，Pro 单卡下载量已超 7.8 万：

模型
总参数
激活参数
HF 仓库尺寸
上下文
精度

DeepSeek-V4-Flash-Base
284B
13B
292B
1M
FP8 Mixed

DeepSeek-V4-Flash
284B
13B
158B
1M
FP4 + FP8 Mixed

DeepSeek-V4-Pro-Base
1.6T
49B
1.6T
1M
FP8 Mixed

DeepSeek-V4-Pro
1.6T
49B
862B
1M
FP4 + FP8 Mixed

我留意到一个细节：Instruct 版本的仓库尺寸"腰斩"——FP4 QAT 把 Pro 从 1.6T 压到约 862B，Flash 从 292B 压到约 158B。这是 V4 把"百万上下文 + 万亿参数"做成"可被部署"的一个重要前提。

产品入口也同步上线。chat.deepseek.com 把两条线分别包装为 Expert Mode （对应 Pro，深度推理）和 Instant Mode （对应 Flash，低延迟），API 当日同步更新。

这里有个取舍。

Pro 更强，尤其是知识和复杂 Agent 任务。Flash 更便宜更快，给足 thinking budget 后，很多推理任务可以接近 Pro，但知识密度和高难 Agent 任务仍会落后。

放到生产系统里去用，分层会更清晰：

- • Flash 适合高频、低成本、可批量处理的任务。

- • Pro 适合高价值、强推理、强知识、强上下文的任务。

- • Base 更适合研究、微调、二次训练。

- • Instruct 更适合直接对话、工具调用、产品接入。

对企业接入来说，先做路由比"全量换 Pro"更稳。低风险任务走 Flash，复杂规划和关键交付走 Pro；普通模式先 Non-think，必要时升级 High 或 Max。把模型、模式、上下文长度和工具预算一起纳入路由策略，V4 双线产品才更好用。

## 接进真实系统时，先看什么

如果明天要把 DeepSeek V4 接进一个真实 Agent 系统，我不会第一步就问"它能不能替代谁"。

可以先按任务拆开：

场景
优先模型
推理模式
关键控制点

日常问答、普通文案
Flash
Non-think
成本、延迟、格式稳定

中文报告、材料整理
Pro 或 Flash
High
结构、引用、事实边界

长文档分析
Pro
High / Max
上下文分层、缓存、摘要验证

代码修复、工具调用
Pro
High
Harness、沙箱、测试闭环

搜索增强问答
Pro
High
Agentic Search、来源质量、引用

高风险设计评审
Pro
Max
人工确认、可回滚、审计记录

这张表里更该看的，是右边那列控制点。

V4 的能力当然要试，但生产系统里决定体验的，仍然是外面那套工程：任务路由、上下文分层、工具权限、缓存策略、验证闭环、失败恢复。

模型变强以后，Harness 的责任不会变小，反而更重。

## 写到这里，几个我自己想留下的观察

报告很长，我也写得不短了，这一段就当是和朋友闲聊几句，把我自己看完之后比较在意的几件事顺一下。

最先想留下的，还是那条线索： 1M 这个数字本身已经不稀奇了，关键是成本结构。 V4 把注意力 FLOPs、KV cache、shared-prefix prefill、on-disk cache 拉到一起做，就是想把"长上下文"从能力展示推到生产成本能接受的位置。如果自己在做长任务 Agent，先看几件具体的事：每段上下文是不是每轮都要重算？有没有稳定前缀？有没有可压缩的尾部？这些问题问下来，往往比"该不该换 V4"更花时间，也更接近真实成本。

顺着这条线往下， 上下文工程只会越来越重，不会越来越轻 。窗口大不等于自动能用。过去的上下文工程常常是"塞什么进去"，往后会变成"什么稳定、什么动态、什么可压缩、什么应该隔离、什么能缓存、什么该丢"。Non-think / High / Max 这套分档，慢慢也会从"模型功能"变成业务接口：让任务风险、可恢复性、用户等待意愿和业务价值一起决定推理预算，而不是一上来就开最高档。

Agentic Search 这块我自己挺看好。它确实会替代一部分静态 RAG，但代价也得看清——工具调用次数变多、链路变长、错误也会变多。Harness 仍然要管超时、重试、来源质量、引用边界和最终验证。

中文职业写作这条线，我觉得国产模型很快会卷到一个新阶段。漂亮句子只是表面，更值钱的是能按本地语境交付可用文档，这会直接影响企业知识工作流、报告生成、咨询分析、投研、法务、教育、运营这些场景。但同时也别太上头：复杂指令和多轮稳定性仍然是硬骨头，V4 自己都坦白 Claude Opus 4.5 在这几项上还领先。这其实是好事，它提醒我们模型选型按任务切，比按品牌切更稳。

最后一件事，更像一种感受： 训练和推理基础设施，正在变成模型能力的一部分 。TileLang、deterministic kernels、FP4 QAT、WAL、on-disk KV cache、teacher scheduling，这些东西看着不像"模型能力"，但最终都会反映到模型能不能稳定发布、便宜服务、跑长任务、从中断里恢复。以后再看模型报告，参数和榜单当然还会看，训练、后训练和服务框架也要一起看。

## 写在最后

DeepSeek V4 这次发布，表层看是一个强开源模型的更新。

再往里看，它其实在回答 2026 年大模型系统的一个核心问题：

当模型能力还在继续上涨，长上下文、推理预算、搜索工具和后训练专家，要怎么合成一套能稳定交付的系统。

调侃 Claude 那句话很容易被记住，但不是报告里最该停下来看的部分。

更该记住的是，DeepSeek 已经把长上下文的成本、KV cache 的系统化管理、推理强度分档、Agentic Search、中文职业任务评测，放进了同一张工程图里。

这意味着开源模型竞争正进入下一阶段。

接下来更该比的是：谁能把大窗口做便宜、把强推理做可控、把工具调用做稳定、把真实任务跑成闭环。

这对做 Agent 和 AI 工程化的人，会更有参考价值。

## 往期相关

相关延伸：

- • 《1
  M 上下文不是终点：Anthropic 正在把 Claude Code 变成"上下文操作系统"
  》

- • 《
  Claude Code 为什么缓存命中率能做到 92%？一篇讲清 Prompt Caching 的工程逻辑
  》

- • 《
  Agent Harness 综述：同一个模型，为什么做出来的 Agent 差这么远
  》

- • 《
  30分钟手搓 Agent：LLM + Tools + Loop + Memory 跑通最小闭环
  》

## 参考资料

- • DeepSeek-V4 Hugging Face Collection：https://huggingface.co/collections/deepseek-ai/deepseek-v4

- • DeepSeek-V4-Pro Model Card：https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro

- • DeepSeek-V4 Technical Report：https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf

- • DeepSeek 官方 X 发布帖：https://x.com/deepseek_ai/status/2047516922263285776

如喜欢本文，请点击右上角，把文章分享到朋友圈

如有想了解学习的技术点，请留言给若飞安排分享

因公众号更改推送规则，请点“在看”并加“星标”第一时间获取精彩技术分享

·END·

```python
相关阅读：

- 刚刚，Claude Code“代码泄露”背后：如何重新看 Agent Harness
- 大家都在讲 Harness，但它到底该怎么理解
- 模型越来越强，为什么大家却开始重写 Harness

- 如何让单个 Agent 做长任务不失真：Anthropic 给出了一套更工程化的答案
- Claude Code高手的 8 个 Claude Code 实战习惯
- 别从 README 开始：一个架构师会怎样翻 Codex 仓库
- Spec 不是代码的替代品，它是 AI Coding 的上下文管理层
- 如何让 Agents 自己设计、升级 Agents
- OpenAI怎么把开源项目维护做成工作流：Skills、AGENTS.md 和 CI 的一套组合拳
- Claude Skills 入门：把“会用 AI”变成“可复制的工程能力”
- 一套可复制的 Claude Code 配置方案：CLAUDE.md、Rules、Commands、Hooks
- Claude Code 最佳实践：把上下文变成生产力（团队可落地版）
- 把 AI 当成新同事：Agent Coding 的上下文与验证体系
- 一周写百万行的背后：Cursor长时间运行 Agent 的工程方法论
- 2026年生活重启指南
- 我真不敢相信，AI 先加速的是工程师。
- 扒一扒 Claude Cowork 系统提示词：Anthropic 如何打造数字同事
- Cowork 安全架构深度解析：从 Claude Code 到 Cowork，Anthropic 如何把“可控”做成产品
- Anthropic官方万字长文：AI Agent评估的系统化方法论
- 银弹还是枷锁？Claude Agent SDK 的架构真相
- Claude Code创始人亲授13条使用技巧
- Claude Code 内部工具开源 code-simplifier：终结 AI 屎山代码的终极方案

```

版权申明：内容来源网络，仅供学习研究，版权归原创者所有。如有侵权烦请告知，我们会立即删除并表示歉意。谢谢!

架构师

我们都是架构师！