NVIDIA Blackwell GPU通过DFlash实现15倍AI推理提升

NVIDIA发布了一项在AI推理性能上的重大突破，其DFlash推测解码技术在Blackwell GPU上实现了高达15倍的吞吐量提升。这一创新旨在优化对延迟敏感的大型语言模型（LLM）部署，这是AI系统逐步转向处理复杂多代理工作流程的关键需求。

DFlash利用区块扩散起草器来并行预测多个标记，而不是传统自回归模型的顺序标记生成。这种方法显著提升了GPU利用率和吞吐量，同时不影响输出质量。在NVIDIA Blackwell架构的测试中，DFlash在高交互性场景（如每用户每秒500-600标记）下的吞吐量比传统方法高出15倍，并且在较小模型（如Llama 3.1 8B）上相比于诸如EAGLE-3等最先进的推测解码方法实现了交互性的翻倍提升。

性能提升与Blackwell的先进架构密切相关，该架构拥有第五代Tensor Cores和超高带宽互连功能。每个Blackwell Ultra GPU包含两个芯片，提供高达15 petaflops的密集计算能力，专为AI工作负载优化。该架构在本月早些时候的MLPerf Training 6.0等基准测试中已表现优异，而DFlash则展示了软件优化如何进一步释放其潜力。

DFlash正在迅速从研究转向实际应用。开发者现在可以通过Hugging Face访问20个预训练的DFlash模型检查点，涵盖了TensorRT-LLM、SGLang和vLLM等常用AI框架。集成非常方便，几乎不需要或仅需少量的应用程序重构。例如，在vLLM中用DFlash替换EAGLE-3只需要一个配置更改。

在更广泛的基准测试中，DFlash始终优于现有方法。在编码、推理和摘要等任务中，它在各种数据集上比EAGLE-3实现了平均2.3倍到2.8倍的加速。在单GPU设置（如NVIDIA的DGX B300系统）上，像Qwen3和Gemma 4这样的模型通过DFlash实现了高达5.8倍的吞吐量提升，优于自回归解码。

这一发展正值NVIDIA继续主导AI硬件市场之际。Blackwell架构已巩固其作为AI推理和训练基础设施骨干的地位，尤其是在为万亿参数模型设计的数据中心中。NVIDIA的GPU定价反映了这种主导地位，据6月13日的一份报告显示，RTX Pro 6000 Blackwell GPU的价格在过去一年中较其建议零售价上涨了55%。

对于开发者和企业而言，DFlash提供了一个极具吸引力的方案：在现有NVIDIA硬件上实现更高的吞吐量和更低的延迟。随着AI工作负载日益复杂和对性能的敏感性增加，像DFlash这样的优化可能成为在AI竞赛中保持竞争力的必备工具。

DFlash现已可部署，预训练模型和配方可通过Hugging Face和NVIDIA的开发者生态系统获取。

Image source: Shutterstock

Bookmark

NVIDIA Blackwell GPU通过DFlash实现15倍AI推理提升

Premium Sponsors

Flash News