通过NCCL增强AI的可扩展性和容错能力 - Blockchain.News

通过NCCL增强AI的可扩展性和容错能力

realtime news Nov 10, 2025 23:56

探索NVIDIA的NCCL如何通过实现GPU之间的动态通信、优化资源分配以及确保对故障的弹性来增强AI的可扩展性和容错能力。

通过NCCL增强AI的可扩展性和容错能力

NVIDIA集体通信库(NCCL)正在革新人工智能(AI)工作负载的管理方式,促进跨GPU集群的无缝可扩展性和改进的容错能力。根据NVIDIA,NCCL提供了低延迟、高带宽的集合API,使AI模型能够从单个主机上的少量GPU高效扩展到数据中心中的数千个GPU。

通过NCCL实现可扩展AI

NCCL最初于2015年推出,旨在通过同时利用多个GPU来加速AI训练。随着AI模型的复杂性增加,对可扩展解决方案的需求变得更加迫切。NCCL的通信骨干支持各种并行策略,在多个工作节点间同步计算。

运行时的动态资源分配使推理引擎能够根据用户流量进行调整,从而通过按需扩展或缩减资源来优化运营成本。这种适应性对于计划的扩展事件和容错性都是至关重要的,确保了服务停机时间的最小化。

利用NCCL通信器进行动态应用扩展

受MPI通信器的启发,NCCL通信器引入了动态应用扩展的新概念。它们允许应用在执行期间从头创建通信器,优化等级分配并实现非阻塞初始化。这种灵活性使NCCL应用能够有效地执行扩展操作,以适应增加的计算需求。

对于缩减扩展,NCCL提供了如ncclCommShrink等优化措施,它重用等级信息以最小化初始化时间,提高大规模设置中的性能。

容错NCCL应用

NCCL应用中的故障检测和缓解对于维护服务可靠性是不可或缺的。除了传统的检查点之外,NCCL通信器可以在故障后动态调整大小,确保无需重新启动整个工作负载即可恢复。这一功能在使用Kubernetes等支持重新启动替换工作节点的平台的环境中特别重要。

NCCL 2.27引入了ncclCommShrink,通过排除故障等级并创建新的通信器而无需完全初始化,简化了恢复过程。这一特性增强了大型训练环境中的弹性。

构建具有弹性的AI基础设施

NCCL对动态通信器的支持使开发者能够构建适应工作负载变化并优化资源利用率的强大AI基础设施。通过利用ncclCommAbortncclCommShrink等特性,开发者可以有效地处理硬件和软件故障,避免整个系统重启。

随着AI模型的不断增长,NCCL的能力对于希望创建可扩展且容错系统的开发者至关重要。对于那些有兴趣探索这些功能的人,最新的NCCL版本可以下载,预构建的容器如PyTorch NGC容器则提供了可即用解决方案。

Image source: Shutterstock