NVIDIA推出实时NCCL监控与Prometheus集成

NVIDIA通过推出NCCL Inspector与Prometheus集成，为其Collective Communication Library (NCCL)提供了重大升级，实现了实时性能监控。这一新功能旨在简化调试流程并优化GPU到GPU的通信，这是分布式深度学习和高性能计算 (HPC) 的关键组成部分。

NCCL是许多AI工作负载的核心，能够在单台机器或多个节点之间实现高效的GPU通信。然而，识别训练工作流中的瓶颈一直是一个挑战。借助最新的NCCL Inspector更新，用户现在可以通过Grafana仪表板访问实时的时间序列数据，从而简化诊断和解决性能问题的过程。

Prometheus模式：实时监控的变革

新的Prometheus模式消除了过去用于离线分析而需要占用大量存储空间的JSON文件的需求。相反，NCCL性能指标由Prometheus节点导出器收集并存储在时间序列数据库中，从而实现实时可视化。这些指标包括总线带宽、执行时间和消息大小等详细信息，并根据GPU设备、节点和集体操作类型等上下文进行分类。

例如，在大规模AI预训练任务中，用户可以监控跨NVLink和网络互连等混合通信层的带宽和执行性能。将实时数据与观察到的性能下降关联起来，为故障排除和优化工作流提供了可操作的洞察。

实际应用场景

增强版的NCCL Inspector在以下两个关键场景中特别有价值：

实时可观察性：实时仪表板使用户能够快速识别并解决长时间运行任务中的性能异常。NVIDIA在一个大语言模型的实验中展示了这一能力，其中由于网络限制导致计算性能下降了13%。通过实时数据，工程师将问题定位到网络瓶颈，大大缩短了解决时间。
性能归因：该工具还支持通过关联特定时间段和网络条件进行事后分析。例如，在一次实验中，临时的吞吐量下降被追溯到NVLink和网络通信中的中断。

部署及下一步

使用Prometheus设置NCCL Inspector需要配置环境变量并部署分析插件。NVIDIA在其GitHub页面上提供了详细的文档，包括用于自定义仪表板的Grafana模板。这一集成预计将推动AI研究人员和组织在优化GPU工作负载方面的广泛采用。

向实时可观察性转型与AI模型日益复杂化及其训练所需基础设施的增加保持一致。随着大语言模型及其他计算密集型工作负载的规模不断扩大，像NCCL Inspector这样的工具将在确保高效和可靠性能方面发挥重要作用。

通过此次发布，NVIDIA继续巩固其在AI硬件和软件生态系统中的领导地位，为开发者提供了推动机器学习和高性能计算边界所需的工具。

Image source: Shutterstock

Bookmark

NVIDIA推出实时NCCL监控与Prometheus集成

Prometheus模式：实时监控的变革

实际应用场景

部署及下一步

Premium Sponsors

Flash News