NVIDIA Blackwell Ultra 超越 MLPerf 推理记录
realtime news Sep 09, 2025 17:09
NVIDIA 的 Blackwell Ultra 架构在 MLPerf Inference v5.1 中首次亮相,展示了在 AI 推理性能方面的新标杆,并显著提升了大型语言模型的计算能力。

NVIDIA 最新的技术进步——Blackwell Ultra 架构,根据 NVIDIA 官方博客,在人工智能领域中产生了重大影响,创下了AI推理性能的新纪录。Blackwell Ultra 在 MLPerf Inference v5.1 基准中的首秀,突显了其在处理大型语言模型(LLM)方面的卓越能力。
基准成就
MLPerf Inference v5.1 基准测试包含多种评估 AI 推理性能的测试,NVIDIA 的 Blackwell Ultra 在多种新引入的模型中创下了新纪录。这些模型包括 6710亿参数的专家混合模型 DeepSeek-R1 和 Llama 3.1 系列模型。Blackwell Ultra 平台表现出色,超越了所有以前的基准,并保持了每 GPU 的性能记录。
值得注意的是,与前代产品相比,该架构在 NVFP4 AI 计算能力上达到了 1.5 倍的峰值,并将注意力层计算能力提高了一倍。更高 HBM3e 容量的引入也为这些进步做出了贡献。
技术创新
Blackwell Ultra 架构结合了多项创新技术以提高其性能。在所有 DeepSeek-R1 和 Llama 模型提交中广泛使用 NVFP4 加速是取得这些成果的关键所在。此外,架构通过使用 FP8 精度优化关键值缓存,显著减少了内存占用并提升了性能。
新型并行技术,例如用于 MoE 部分的专家并行和用于注意力机制的数据并行被用以最大化多 GPU 执行。这些技术与使用 CUDA 图形减少推理过程中的 CPU 开销相辅相成。
AI 推理的影响
MLPerf Inference v5.1 基准测试的结果突显了 NVIDIA 在 AI 推理性能领域中的持续领导地位。Blackwell Ultra 架构不仅提高了吞吐量和效率,而且显著降低了每个 token 的成本。这在与基于 Hopper 的系统的比较中尤为明显,Blackwell Ultra 每 GPU 提供了大约五倍的更高吞吐量。
分离式服务技术的引入进一步凸显了 NVIDIA 在 AI 基础设施中的创新。通过在不同 GPU 或节点上解耦上下文和生成,NVIDIA 优化了资源使用,特别是对于像 Llama 3.1 405B 这样的大型语言模型。
未来前景
NVIDIA 在 AI 推理技术方面的进步继续在行业中树立新标准。凭借创纪录的性能,Blackwell Ultra 架构将 NVIDIA 置于 AI 创新的前沿。随着对更复杂 AI 模型的需求增长,NVIDIA 扩展其技术能力的承诺仍然明显。
Rubin CPX 的引入,一个旨在加速长上下文处理的处理器,进一步体现了 NVIDIA 推动 AI 效率和性能极限的决心。
Image source: Shutterstock