NVIDIA Blackwell Ultra 超越 MLPerf 推理记录

NVIDIA Blackwell Ultra 超越 MLPerf 推理记录 - Blockchain.News

NVIDIA 最新的技术进步——Blackwell Ultra 架构，根据 NVIDIA 官方博客，在人工智能领域中产生了重大影响，创下了AI推理性能的新纪录。Blackwell Ultra 在 MLPerf Inference v5.1 基准中的首秀，突显了其在处理大型语言模型（LLM）方面的卓越能力。

基准成就

MLPerf Inference v5.1 基准测试包含多种评估 AI 推理性能的测试，NVIDIA 的 Blackwell Ultra 在多种新引入的模型中创下了新纪录。这些模型包括 6710亿参数的专家混合模型 DeepSeek-R1 和 Llama 3.1 系列模型。Blackwell Ultra 平台表现出色，超越了所有以前的基准，并保持了每 GPU 的性能记录。

值得注意的是，与前代产品相比，该架构在 NVFP4 AI 计算能力上达到了 1.5 倍的峰值，并将注意力层计算能力提高了一倍。更高 HBM3e 容量的引入也为这些进步做出了贡献。

技术创新

Blackwell Ultra 架构结合了多项创新技术以提高其性能。在所有 DeepSeek-R1 和 Llama 模型提交中广泛使用 NVFP4 加速是取得这些成果的关键所在。此外，架构通过使用 FP8 精度优化关键值缓存，显著减少了内存占用并提升了性能。

新型并行技术，例如用于 MoE 部分的专家并行和用于注意力机制的数据并行被用以最大化多 GPU 执行。这些技术与使用 CUDA 图形减少推理过程中的 CPU 开销相辅相成。

AI 推理的影响

MLPerf Inference v5.1 基准测试的结果突显了 NVIDIA 在 AI 推理性能领域中的持续领导地位。Blackwell Ultra 架构不仅提高了吞吐量和效率，而且显著降低了每个 token 的成本。这在与基于 Hopper 的系统的比较中尤为明显，Blackwell Ultra 每 GPU 提供了大约五倍的更高吞吐量。

分离式服务技术的引入进一步凸显了 NVIDIA 在 AI 基础设施中的创新。通过在不同 GPU 或节点上解耦上下文和生成，NVIDIA 优化了资源使用，特别是对于像 Llama 3.1 405B 这样的大型语言模型。

未来前景

NVIDIA 在 AI 推理技术方面的进步继续在行业中树立新标准。凭借创纪录的性能，Blackwell Ultra 架构将 NVIDIA 置于 AI 创新的前沿。随着对更复杂 AI 模型的需求增长，NVIDIA 扩展其技术能力的承诺仍然明显。

Rubin CPX 的引入，一个旨在加速长上下文处理的处理器，进一步体现了 NVIDIA 推动 AI 效率和性能极限的决心。

Image source: Shutterstock

NVIDIA Blackwell Ultra 超越 MLPerf 推理记录

基准成就

技术创新

AI 推理的影响

未来前景

Premium Sponsors

Flash News