DeepSeek 开源 DSpark:DeepSeek-V4 推理加速 60–85%,无需重训主模型

2026-06-27 18:00:00

DSpark 技术解读

核心思路

推测解码(Speculative Decoding)——用小 draft 模型预测,大模型验证:

  • 无损输出(lossless)
  • 无需重训 V4 主权重

架构组件

组件 作用
并行 draft backbone 批量预测候选 token
tiny sequential head 减少 suffix decay
confidence head 置信度驱动验证
load-aware scheduler GPU 空闲多验证、繁忙少验证

性能(生产环境)

模型 vs MTP-1 加速
V4-Flash 60–85%
V4-Pro 57–78%

离线 accepted length:+26–31% vs Eagle3,+16–18% vs DFlash。

开源

  • Checkpoint:DeepSeek-V4-Pro-DSpark、DeepSeek-V4-Flash-DSpark
  • 训练代码:DeepSpec(MIT)
  • Hugging Face 含 inference 最小示例