NVIDIA推出GPU监控的Fleet Intelligence服务

NVIDIA宣布其Fleet Intelligence服务正式上线，这是一项托管服务，旨在为GPU集群提供实时监控。该服务专为数据中心运营商和正在扩展NVIDIA GPU的企业设计，解决了管理异构硬件、快速演进的软件堆栈以及可变工作负载的复杂性。目标明确：优化性能、减少停机时间并最大化投资回报率（ROI）。

Fleet Intelligence使用一个轻量级的主机代理，将遥测数据流式传输到基于云的平台。这使得能够精确地洞察关键的运营指标，包括功耗、温度、性能、健康状况和配置一致性。NVIDIA还将该代理开源，以确保透明性和可审计性。该服务兼容NVIDIA数据中心GPU架构，例如Vera Rubin、Blackwell和Hopper，但某些功能（如认证）仅限于特定架构。

Fleet Intelligence的主要功能

该服务专注于以下三个主要领域：

库存和可视化：用户可以全球范围内查看其GPU集群的利用率，或深入特定的计算区域。诸如热热点或超出功率阈值等异常会被立即标记，以便进一步调查。
报告和警报：Fleet Intelligence提供接近实时的健康状况监控和可自定义的警报，用于处理例如低利用率或硬件故障等问题。报告可以追踪功耗历史数据、温度趋势和错误，帮助运营商主动解决效率问题。
完整性和认证：利用NVIDIA的机密计算技术，该服务可以加密验证GPU的完整性。这确保所有设备都以经过认证且防篡改的配置运行。

为实际挑战而构建

现代GPU集群面临一系列运营障碍，从错误配置的驱动程序到可能影响工作负载的细微硬件故障。Fleet Intelligence通过整合NVIDIA在管理其拥有的数十万GPU基础设施上的经验来应对这些问题。包括Lambda和IREN在内的早期用户已经报告了显著的好处。例如，Lambda的首席科学官Chuan Li强调了Fleet Intelligence在提供“端到端可见性”和跨其GPU集群的可操作洞察方面的价值。

开源且对NVIDIA GPU用户免费

NVIDIA已将Fleet Intelligence代理作为开源项目发布在GitHub上，确保用户的透明性。该服务本身对NVIDIA数据中心GPU的所有者、运营商和云租户免费提供。它提供了全面的工具来改善集群健康状况和运营效率，对于扩展GPU部署的企业来说是一个宝贵的资源。

想了解更多或申请访问，请访问NVIDIA的Fleet Intelligence页面。

Image source: Shutterstock

Bookmark

NVIDIA推出GPU监控的Fleet Intelligence服务

Fleet Intelligence的主要功能

为实际挑战而构建

开源且对NVIDIA GPU用户免费

Premium Sponsors

Flash News