NVIDIA Blackwell 以破纪录的性能引领 MLPerf Training v5.1
realtime news Nov 13, 2025 03:00
NVIDIA 的 Blackwell 架构在所有 MLPerf Training v5.1 基准测试中表现出色,突出 AI 训练效率和精确度的进步。
NVIDIA 的 Blackwell 架构在 AI 训练中设立了新标准,在所有 MLPerf Training v5.1 基准测试中取得了最快时间。根据 NVIDIA 的官方博客,这一成就标志着 AI 训练能力的显著进步,强调了 NVIDIA 在 AI 技术创新中的承诺。
基准测试表现
MLPerf Training v5.1 是一套重要的基准测试套件,用于评估 AI 模型在训练中的表现。NVIDIA 的 Blackwell 架构,驱动着 NVIDIA Blackwell 和 Blackwell Ultra GPU,在所有基准测试中表现出色,展示了无与伦比的性能,无论是最大规模还是提交的规模。值得注意的是,该架构利用 5,120 个 Blackwell GPU 实现了 Llama 3.1 405B 模型的破纪录 10 分钟训练时间。
技术创新
Blackwell 架构的成功可归因于多项技术进步。其中的关键是引入了 NVFP4 数据格式,提升了精度和训练效率。通过使用更少的 token,同时保持准确性,该格式允许更快的训练时间,这是大规模 AI 训练中的一个关键因素。
进一步的创新包括 GPU 硬件和软件库(如 NVIDIA Transformer Engine)的改进,以及优化训练过程的数值技术。这些改进有助于架构高效处理复杂的 AI 模型。
Blackwell Ultra 的增强能力
NVIDIA 最新发布的 Blackwell Ultra GPU 比之前的版本有显著改进。这些改进包括增加的 NVFP4 峰值吞吐量和增强的内存容量,能够更高效地处理大型语言模型(LLM)。这些增强显著提升了性能,尤其是在 LLM 训练基准测试中。
网络和规模
NVIDIA 的进步不仅限于 GPU,还包括网络改进。NVIDIA Quantum-X800 网络平台的引入,支持 800 Gb/s 的连接,满足大型 AI 模型所需的规模。该基础设施支持 GPU 之间的无缝通信,加快了训练时间并提高了可扩展性。
未来影响
NVIDIA 在 Blackwell 架构上的成就突显了 AI 开发和部署加速的潜力。通过在硬件和软件上的持续创新,NVIDIA 旨在降低智能成本,为 AI 技术的未来突破铺平道路。
Image source: Shutterstock