NVIDIA Blackwell Ultra 在 MLPerf Inference v5.1 中打破纪录
realtime news Sep 09, 2025 17:53
NVIDIA 的 Blackwell Ultra 架构在 MLPerf Inference v5.1 中取得突破性成果,以其创新的设计和技术设定了新的性能基准。

NVIDIA 的最新创新 Blackwell Ultra 架构在 MLPerf Inference v5.1 基准测试中创下了空前的纪录,彰显了其在 AI 推理任务中的卓越性能。根据 NVIDIA 的说法,由 Blackwell Ultra 架构驱动的 GB300 NVL72 机架级系统比以前的系统表现更出色,其 DeepSeek-R1 推理吞吐量比 GB200 NVL72 高出多达 1.4 倍。
创新的架构进步
Blackwell Ultra 架构在原始 Blackwell 设计的成功基础上进行了重大增强。它的 NVFP4 AI 计算能力提高了 1.5 倍,注意力层加速翻倍,每个 GPU 的 HBM3e 内存最高达 288GB。这些进步使 NVIDIA 在包括 DeepSeek-R1、Llama 3.1 405B 互动、Llama 3.1 8B 和 Whisper 在内的 MLPerf Inference v5.1 套件的所有新数据中心基准测试中都创建了新的性能纪录。
全栈协同设计与优化
Blackwell Ultra 架构的优异性能归功于 NVIDIA 的全栈协同设计方法,其中包括 NVFP4 数据格式的硬件加速。这种 4 位浮点格式比其他 FP4 格式提供更高的准确性,并且与高精度格式相当。NVIDIA 的 TensorRT 模型优化器在优化 DeepSeek-R1 和 Llama 3.1 等模型方面发挥了关键作用,在提升性能的同时保持了准确性。
创纪录的性能技术
NVIDIA 的创新解构服务技术,通过分离上下文和生成任务,在 Llama 3.1 405B 互动基准测试中取得了创纪录的性能。与传统服务方法相比,此方法使 GB200 NVL72 系统的每个 GPU 性能提高了近 50%。
行业合作与市场影响
NVIDIA 在 AI 推理领域的成就得益于与包括 Azure、Broadcom、Cisco 和 Dell Technologies 在内的云服务提供商和服务器制造商的合作。这些伙伴关系确保 NVIDIA 的 AI 平台的尖端性能可供广泛的组织使用,为 AI 应用提供更低的总拥有成本 (TCO) 和增强的投资回报。
欲了解 NVIDIA 技术进步的更深入内容,请访问 NVIDIA 技术博客,获取有关 MLPerf Inference v5.1 和 Blackwell Ultra 架构的更多信息。
Image source: Shutterstock