NVIDIA推出GPU监控的Fleet Intelligence服务
realtime news May 11, 2026 20:36
NVIDIA全新的Fleet Intelligence服务提供实时GPU集群监控,提高数据中心的效率和可靠性。
NVIDIA宣布其Fleet Intelligence服务正式上线,这是一项托管服务,旨在为GPU集群提供实时监控。该服务专为数据中心运营商和正在扩展NVIDIA GPU的企业设计,解决了管理异构硬件、快速演进的软件堆栈以及可变工作负载的复杂性。目标明确:优化性能、减少停机时间并最大化投资回报率(ROI)。
Fleet Intelligence使用一个轻量级的主机代理,将遥测数据流式传输到基于云的平台。这使得能够精确地洞察关键的运营指标,包括功耗、温度、性能、健康状况和配置一致性。NVIDIA还将该代理开源,以确保透明性和可审计性。该服务兼容NVIDIA数据中心GPU架构,例如Vera Rubin、Blackwell和Hopper,但某些功能(如认证)仅限于特定架构。
Fleet Intelligence的主要功能
该服务专注于以下三个主要领域:
- 库存和可视化:用户可以全球范围内查看其GPU集群的利用率,或深入特定的计算区域。诸如热热点或超出功率阈值等异常会被立即标记,以便进一步调查。
- 报告和警报:Fleet Intelligence提供接近实时的健康状况监控和可自定义的警报,用于处理例如低利用率或硬件故障等问题。报告可以追踪功耗历史数据、温度趋势和错误,帮助运营商主动解决效率问题。
- 完整性和认证:利用NVIDIA的机密计算技术,该服务可以加密验证GPU的完整性。这确保所有设备都以经过认证且防篡改的配置运行。
为实际挑战而构建
现代GPU集群面临一系列运营障碍,从错误配置的驱动程序到可能影响工作负载的细微硬件故障。Fleet Intelligence通过整合NVIDIA在管理其拥有的数十万GPU基础设施上的经验来应对这些问题。包括Lambda和IREN在内的早期用户已经报告了显著的好处。例如,Lambda的首席科学官Chuan Li强调了Fleet Intelligence在提供“端到端可见性”和跨其GPU集群的可操作洞察方面的价值。
开源且对NVIDIA GPU用户免费
NVIDIA已将Fleet Intelligence代理作为开源项目发布在GitHub上,确保用户的透明性。该服务本身对NVIDIA数据中心GPU的所有者、运营商和云租户免费提供。它提供了全面的工具来改善集群健康状况和运营效率,对于扩展GPU部署的企业来说是一个宝贵的资源。
想了解更多或申请访问,请访问NVIDIA的Fleet Intelligence页面。
Image source: Shutterstock