NVIDIA GB200 NVL72 使用 Slurm 优化 AI 超级计算

NVIDIA 的 GB200 NVL72 是一个尖端的机架级AI超级计算机，现在通过 Slurm 的拓扑感知作业调度实现了性能优化。这一进步至关重要，因为 AI 模型，特别是拥有数万亿参数的大型语言模型（LLMs），需要前所未有的计算能力和高效的资源分配。该系统基于 NVIDIA 的 Blackwell 架构构建，提供高达每秒 130TB（TB/s）的 GPU 通信带宽，并支持一些最复杂 AI 工作负载的训练和推理。

GB200 NVL72 在单一机架内集成了 72 个 NVIDIA Blackwell GPU 和 36 个 Grace CPU，通过 NVIDIA NVLink 互联。根据 NVIDIA 的数据，这种配置不仅支持大规模训练，还能够以每秒超过 150 万个令牌的速度加速 OpenAI GPT 模型的实时推理。然而，正如 NVIDIA 与 SchedMD 合作增强 Slurm 的拓扑感知能力所强调的那样，要在共享集群中最大化这种性能需要战略性调度。

调度为何对于百亿亿次系统重要

AI 工作负载通常运行在共享集群上，多项任务需要竞争资源。如果没有拓扑感知调度，作业可能会跨 NVLink 域低效分布，从而导致资源碎片化并降低性能。新推出的 Slurm 拓扑/块插件将作业与 GB200 NVL72 的物理网络布局对齐，保留局部性并最大程度减少碎片化。这确保了 GPU 资源的分配方式能够最大化带宽和计算效率。

例如，NVIDIA 对一个由 5,000 个节点组成的 GB200 NVL72 集群的模拟显示，新调度策略在保持高作业效率的同时，实现了 GPU 占用率接近理论最大值的 1%。该插件还战略性地布置较小的作业，以释放资源支持更大的 AI 训练任务，在利用率和性能之间取得平衡。

段大小和最佳实践

GB200 NVL72 系统的关键特性之一是支持更大的段大小。与此前的 NVIDIA HGX H100 系统仅限于单节点段大小不同，GB200 NVL72 可以处理高达 18 个节点的段。这种灵活性允许运营商根据特定工作负载调整段大小，例如使用 16 节点段处理高带宽模型（如专家混合模型 MoE 的训练），或使用较小段处理要求较低的任务。

在实际应用中，NVIDIA 建议根据工作负载特性调整段大小。例如，128 个 GPU 或更多的大型作业应使用 16 节点段，而较小的作业可以分配到单节点段。这些配置可以避免对调度器的过度限制，并在作业配置随时间演变时保持高集群利用率。

市场背景与应用

GB200 NVL72 的商业部署在 2025 年开始加速，单个系统的价格在 280 万至 340 万美元之间。截至 2026 年 3 月，全配置系统的价格据报道已攀升至高达 880 万美元，反映出对先进 AI 基础设施的需求飙升。NVIDIA 的数据中心收入在 2026 财年第一季度达到 391 亿美元，这表明像 GB200 NVL72 这样的系统对 AI 和高性能计算（HPC）工作负载的重要性日益增加。

对于投资者来说，NVIDIA 的股票（NASDAQ：NVDA）当前交易价格为 221.42 美元，市值为 5.40 万亿美元。凭借在 AI 硬件领域的领先地位，以及在软件创新（如 Slurm 的拓扑感知调度）方面的进步，公司在快速扩展的 AI 和 HPC 市场中占据了强有力的地位。

展望未来

GB200 NVL72 代表了 AI 超级计算的重大飞跃，但其全部潜力取决于高效的工作负载管理。NVIDIA 与 SchedMD 合作优化 Slurm，展示了软件如何补充硬件以实现百亿亿次性能。对于部署这些系统的组织来说，持续监控和基于模拟的调度策略测试将是保持高利用率和峰值性能的关键。

随着 AI 模型复杂性的不断增加，GB200 NVL72 和类似架构可能会成为大规模 AI 训练和推理的基础。通过调度算法和硬件集成的进一步发展，百亿亿次 AI 计算的时代才刚刚开始。

Image source: Shutterstock

Bookmark

NVIDIA GB200 NVL72 使用 Slurm 优化 AI 超级计算

调度为何对于百亿亿次系统重要

段大小和最佳实践

市场背景与应用

展望未来

Premium Sponsors

Flash News