NVIDIA Blackwell 在 InferenceMAX™ v1 基准测试中表现出色

NVIDIA Blackwell 在 InferenceMAX™ v1 基准测试中表现出色 - Blockchain.News

SemiAnalysis 推出了 InferenceMAX™ v1，这是一项旨在全面评估推理硬件性能的开源计划。最近发布的结果显示，NVIDIA 的最新 GPU 尤其是 Blackwell 系列在各类工作负载的推理性能方面领先，据NVIDIA称。

NVIDIA Blackwell 的性能突破

NVIDIA Blackwell 展示了相较其前代 Hopper 系列达到 15 倍的性能提升，转化为显著的收入机会。这一进步很大程度上归功于 NVIDIA 的硬件-软件共同设计，包括支持 NVFP4 低精度格式、第五代 NVIDIA NVLink，以及 NVIDIA TensorRT-LLM 和 Dynamo 等先进推理框架。

InferenceMAX v1 的开源特性允许 AI 社区复制 NVIDIA 的优异结果，为各种 AI 推理场景中的性能验证提供了基准。

InferenceMAX v1 的关键特性

InferenceMAX v1 以持续、自动化测试而著称，其结果每日发布。这些基准测试涵盖单节点和多节点配置，涉及广泛的模型、精度和序列长度，反映真实世界的部署场景。

基准测试提供关于延迟、吞吐量和批量大小性能的深入见解，这些都是涉及推理任务、文档处理和聊天场景的 AI 应用的关键指标。

NVIDIA 的代际飞跃

从 NVIDIA Hopper HGX H200 到 Blackwell DGX B200 和 GB200 NVL72 平台的跃迁标志着效率和成本效益的显著提升。 Blackwell 的架构具备第五代 Tensor Cores 和先进的 NVLink 带宽，提供了卓越的每瓦计算和内存带宽，大幅降低每百万标记的成本。

这种架构的优势由持续的软件优化所补充，增强了时间上的性能。尤其是 TensorRT-LLM 栈的改进带来了显著的吞吐量提升，优化了诸如 gpt-oss-120b 之类的大型语言模型。

成本效率和可扩展性

GB200 NVL72 在 AI 成本效率方面设立了新标准，与之前的代相比提供了显著更低的总体拥有成本。这是通过提供更高的吞吐量和在高交互水平下保持低每百万标记成本实现的。

GB200 NVL72 的创新设计结合 Dynamo 和 TensorRT-LLM，最大限度地提高混合专家模型（MoE）的性能，使 GPU 使用率实现高效和高吞吐量，并满足各种 SLA 约束下的需求。

协作式进展

NVIDIA 与 SGLang 和 vLLM 等开源项目的合作进一步增强了 Blackwell 的性能和效率。这些合作关系促成了新内核和优化的开发，确保 NVIDIA 的硬件能够充分利用开源推理框架。

随着这些进步，NVIDIA 继续在 AI 硬件和软件领域推陈出新，树立了业内性能和效率的新标杆。

Image source: Shutterstock