---
title: "DeepSeek V4 DSpark：投机解码框架 DeepSpec 开源"
source_url: "https://mp.weixin.qq.com/s/xFzo8SBzqcxtAL3mYnYV-A"
author: "机器之心"
published: 2026-06-29
ingested: 2026-06-29
type: raw-article
language: zh
tags: [speculative-decoding, deepseek, inference-optimization, llm, open-source]
---

# DeepSeek V4 DSpark：投机解码框架

**技术报告**: [DSpark_paper.pdf](https://github.com/deepseek-ai/DeepSpec/blob/main/DSpark_paper.pdf)
**代码库**: https://github.com/deepseek-ai/DeepSpec

## 核心创新

DSpark 是 DeepSeek-V4-Pro 基础上的推测性解码模块，重点在工程落地而非模型能力迭代。已部署在 DeepSeek-V4（Flash 和 Pro）线上流量中。

### 半自回归生成架构（Semi-Autoregressive Generation）
- 保留并行草稿模型高吞吐优势
- 加入轻量级串行模块，建模 block 内 token 依赖关系
- 缓解并行草稿模型后续位置的接受率衰减问题

### 置信度调度验证（Confidence-Scheduled Verification）
- 置信度头（Confidence Head）评估每个 token 存活概率
- 硬件感知前缀调度器根据实时引擎吞吐量动态定制验证长度
- 算力只分配给预期回报最高的 token

### 异步调度
- 兼容零开销调度（ZOS）和连续 CUDA 图回放
- 利用前两步历史预测决定当前动态截断长度
- 隐藏调度延迟，避免 GPU 流水线停顿
- 目标模型输出分布完全无损还原

## 性能

- Qwen3（4B/8B/14B）上平均接受长度：比 Eagle3 +26.7%~30.9%，比 DFlash +16.3%~18.4%
- vs MTP-1 基准：相同吞吐下生成速度 +60%~85%（Flash）、+57%~78%（Pro）

## DeepSpec 开源工具链

三阶段流水线：数据准备 → 训练 → 评估

- **数据准备**：下载提示词 → 推理引擎重生成 → 构建目标缓存（Qwen3-4B 默认约 38 TB）
- **训练**：单节点 8 卡，支持 config 覆盖
- **评估**：GSM8K、MATH500、AIME25、HumanEval、MBPP、LiveCodeBench、MT-Bench、Alpaca、Arena-Hard-v2

内置三种草稿模型：DSpark、DFlash、Eagle3。支持 Qwen3 和 Gemma。