DeepSeek 开源 DSpark:DeepSeek-V4 推理加速 60–85%,无需重训主模型
2026-06-27 18:00:00
DSpark 技术解读
核心思路
推测解码(Speculative Decoding)——用小 draft 模型预测,大模型验证:
- 无损输出(lossless)
- 无需重训 V4 主权重
架构组件
| 组件 | 作用 |
|---|---|
| 并行 draft backbone | 批量预测候选 token |
| tiny sequential head | 减少 suffix decay |
| confidence head | 置信度驱动验证 |
| load-aware scheduler | GPU 空闲多验证、繁忙少验证 |
性能(生产环境)
| 模型 | vs MTP-1 加速 |
|---|---|
| V4-Flash | 60–85% |
| V4-Pro | 57–78% |
离线 accepted length:+26–31% vs Eagle3,+16–18% vs DFlash。
开源
- Checkpoint:DeepSeek-V4-Pro-DSpark、DeepSeek-V4-Flash-DSpark
- 训练代码:DeepSpec(MIT)
- Hugging Face 含 inference 最小示例