NVIDIA Blackwell GPU通过DFlash实现15倍AI推理提升
realtime news Jun 23, 2026 15:47
NVIDIA的DFlash推测解码技术使Blackwell GPU的AI推理速度提升了15倍,革新了多代理工作流程并提高了吞吐量。
NVIDIA发布了一项在AI推理性能上的重大突破,其DFlash推测解码技术在Blackwell GPU上实现了高达15倍的吞吐量提升。这一创新旨在优化对延迟敏感的大型语言模型(LLM)部署,这是AI系统逐步转向处理复杂多代理工作流程的关键需求。
DFlash利用区块扩散起草器来并行预测多个标记,而不是传统自回归模型的顺序标记生成。这种方法显著提升了GPU利用率和吞吐量,同时不影响输出质量。在NVIDIA Blackwell架构的测试中,DFlash在高交互性场景(如每用户每秒500-600标记)下的吞吐量比传统方法高出15倍,并且在较小模型(如Llama 3.1 8B)上相比于诸如EAGLE-3等最先进的推测解码方法实现了交互性的翻倍提升。
性能提升与Blackwell的先进架构密切相关,该架构拥有第五代Tensor Cores和超高带宽互连功能。每个Blackwell Ultra GPU包含两个芯片,提供高达15 petaflops的密集计算能力,专为AI工作负载优化。该架构在本月早些时候的MLPerf Training 6.0等基准测试中已表现优异,而DFlash则展示了软件优化如何进一步释放其潜力。
DFlash正在迅速从研究转向实际应用。开发者现在可以通过Hugging Face访问20个预训练的DFlash模型检查点,涵盖了TensorRT-LLM、SGLang和vLLM等常用AI框架。集成非常方便,几乎不需要或仅需少量的应用程序重构。例如,在vLLM中用DFlash替换EAGLE-3只需要一个配置更改。
在更广泛的基准测试中,DFlash始终优于现有方法。在编码、推理和摘要等任务中,它在各种数据集上比EAGLE-3实现了平均2.3倍到2.8倍的加速。在单GPU设置(如NVIDIA的DGX B300系统)上,像Qwen3和Gemma 4这样的模型通过DFlash实现了高达5.8倍的吞吐量提升,优于自回归解码。
这一发展正值NVIDIA继续主导AI硬件市场之际。Blackwell架构已巩固其作为AI推理和训练基础设施骨干的地位,尤其是在为万亿参数模型设计的数据中心中。NVIDIA的GPU定价反映了这种主导地位,据6月13日的一份报告显示,RTX Pro 6000 Blackwell GPU的价格在过去一年中较其建议零售价上涨了55%。
对于开发者和企业而言,DFlash提供了一个极具吸引力的方案:在现有NVIDIA硬件上实现更高的吞吐量和更低的延迟。随着AI工作负载日益复杂和对性能的敏感性增加,像DFlash这样的优化可能成为在AI竞赛中保持竞争力的必备工具。
DFlash现已可部署,预训练模型和配方可通过Hugging Face和NVIDIA的开发者生态系统获取。
Image source: Shutterstock