NVIDIA GB200 NVL72 通过 Slurm 区块调度重新定义机架级 AI

NVIDIA 的 GB200 NVL72，这款价值 340 万美元的 AI 超级计算机，通过集成 Slurm 的拓扑/区块插件的高级工作负载调度能力，正在推动机架级计算的边界。这项创新不仅最大化了系统的百亿亿次级性能，还解决了跨 NVIDIA NVLink 域管理工作负载的固有挑战，这是在大规模运行中保持效率的关键因素。

GB200 NVL72 配备了 72 个 NVIDIA Blackwell GPU 和 36 个 NVIDIA Grace CPU，所有这些都通过第五代 NVLink 相互连接。这种架构将 NVLink 的一致内存域扩展到整个机架，实现了 130 TB/s 的总带宽。然而，任何跨越 NVLink 边界的通信——例如通过 InfiniBand 或以太网——都会导致性能急剧下降，通常降至 50 GB/s。这使得在这些域内进行工作负载的合理分配对维持性能至关重要。

这时，Slurm 区块调度登场了。在与 SchedMD 的合作中，Slurm 23.11 版本的拓扑/区块插件将 NVLink 域视为“硬边界”，确保作业分配得到优化，从而充分利用高速 NVLink 结构。例如，请求多达 18 个节点（一个 NVLink 域）的作业现在可以避免传统集群调度器常见的碎片化问题。对于更大的作业，引入的 --segment 参数允许用户指定必须保持在同一域内的最小节点单位，在硬件限制和调度器效率之间达成平衡。

这一进步对于像大型语言模型（LLM）训练和万亿参数推理这样的工作负载尤为重要，因为即使是微小的效率损失也可能导致指数级成本增加。NVIDIA 的 GB200 NVL72 已经展示出与先前系统相比高达 30 倍的实时万亿参数推理速度，为 AI 性能设定了新基准。Slurm 的区块调度确保用户能够充分挖掘系统潜力，同时尽量减少瓶颈。

对于系统管理员来说，配置 Slurm 的拓扑/区块插件需要在 topology.yaml 文件中定义 NVLink 域。这种设置提供了对资源分配的精细控制，并确保在不同工作负载之间保持一致的性能。其他增强功能，例如 switch/nvidia_imex 插件，进一步优化了节点间 GPU 内存的导入/导出过程，减少了共享 NVLink 域内作业干扰的风险。

GB200 NVL72 的突破性设计已开始在主要云服务提供商和企业中获得关注。惠普企业（HPE）于 2025 年初交付了第一台 GB200 系统，分析师预计其继任者 GB300 NVL72 将进一步巩固 NVIDIA 在 AI 硬件领域的主导地位。截至 2026 年 5 月，NVIDIA 的市值已达 5 万亿美元，其持续创新正在巩固其作为下一代计算核心的地位。

对于计划部署机架级 AI 系统的组织来说，在 GB200 NVL72 上利用 Slurm 区块调度提供了一种优化性能和效率的途径。随着对支持复杂 AI 工作负载的高性能基础设施需求的增长，NVIDIA 的技术进步突显了其在向百亿亿次级计算过渡中的领导地位。

Image source: Shutterstock

Bookmark

NVIDIA GB200 NVL72 通过 Slurm 区块调度重新定义机架级 AI

Premium Sponsors

Flash News