Kubernetes 接纳多节点 NVLink 以增强 AI 工作负载

Kubernetes 接纳多节点 NVLink 以增强 AI 工作负载 - Blockchain.News

NVIDIA 推出了AI基础设施的重大进步，引入了 GB200 NVL72 以增强 Kubernetes 上 AI 工作负载的部署和扩展。据 NVIDIA 称，这项创新将重新定义大型语言模型的训练方式和可扩展的低延迟推理工作负载的管理方式。

ComputeDomains：一种新的抽象

此项发展的核心在于一种新的 Kubernetes 抽象称为 ComputeDomains。这种抽象旨在简化使用多节点 NVLink 结构跨节点确保安全 GPU-to-GPU 内存操作的复杂性。ComputeDomains 集成到 NVIDIA DRA 驱动程序中，将低级别的 GPU 构造如 NVIDIA NVLink 和 IMEX 桥接到原生的 Kubernetes 调度概念中。

ComputeDomains 通过在工作负载调度时动态创建和管理 IMEX 域来解决静态、手动定义的 NVLink 设置的局限性。这种灵活性增强了安全隔离、容错能力和成本效率，使其成为现代 AI 基础设施的强大解决方案。

GPU 系统设计的进步

从单节点到多节点 GPU 计算的演变是关键的。早期的 NVIDIA DGX 系统仅限于节点内扩展。然而，随着 NVIDIA 的多节点 NVLink (MNNVL) 技术，不同服务器上的 GPU 可以以完整的 NVLink 带宽进行通信，将整个机架转变成一个统一的 GPU 结构。这使得无缝的性能扩展成为可能，为超快速的分布式训练和推理奠定了基础。

ComputeDomains 利用了这一进展，通过提供 Kubernetes 原生的方式支持多节点 NVLink，已经成为 NVIDIA Kubernetes 堆栈中几个高级组件的基础。

实现和收益

NVIDIA 的 GPU DRA 驱动程序现在提供了 ComputeDomains，它在工作负载调度和完成时动态管理 IMEX 域。此动态管理可确保每个工作负载都有其独立的 IMEX 域，促进安全的 GPU-to-GPU 通信，同时保持高资源利用率。

ComputeDomains 允许在节点之间进行无缝集成和管理，并随着工作负载的增长或缩小进行动态调整。这不仅增强了安全性和故障隔离，还最大化了资源利用率，特别是在多租户环境中。

未来展望

最新发布的 NVIDIA 的 GPU DRA 驱动程序版本 25.8.0 包含对 ComputeDomains 的显著改进。这些增强旨在提供更灵活的调度和易用性，解决当前的限制，如每节点单个 Pod 的限制，并增加资源利用率。

随着 NVIDIA 不断突破 AI 基础设施的界限，ComputeDomains 有望成为如 GB200 NVL72 平台上可扩展、拓扑感知 AI 协调的基石。这些创新承诺简化多节点训练和推理，使分布式工作负载在 Kubernetes 上的部署和管理变得更简单。

Image source: Shutterstock

Kubernetes 接纳多节点 NVLink 以增强 AI 工作负载

ComputeDomains：一种新的抽象

GPU 系统设计的进步

实现和收益

未来展望

Premium Sponsors

Flash News