NVIDIA Grove 简化 Kubernetes 上的 AI 推理 - Blockchain.News

NVIDIA Grove 简化 Kubernetes 上的 AI 推理

realtime news Nov 10, 2025 07:07

NVIDIA 推出 Grove,这是一个 Kubernetes API,可以简化复杂的 AI 推理工作负载,增强多组件系统的可扩展性和编排能力。

NVIDIA Grove 简化 Kubernetes 上的 AI 推理

NVIDIA 推出了 Grove,这是一个复杂的 Kubernetes API,旨在简化复杂 AI 推理工作负载的编排。根据NVIDIA的说法,此项开发解决了对多组件 AI 系统管理的高效需求。

AI 推理系统的演变

AI 推理已显著发展,从单模型、单 pod 部署过渡到由预填充、解码和视觉编码器等多个组件组成的复杂系统。这种演变要求从简单运行 pod 的副本转向将一组组件作为一个整体进行协调。

Grove 通过实现对编排过程的精确控制,解决了管理此类系统的复杂性。它允许在 Kubernetes 中将整个推理服务系统描述为单个自定义资源,方便高效的扩展和调度。

NVIDIA Grove 的关键特性

Grove 的架构支持多节点推理部署,支持从单个副本扩展到数据中心规模,支持数以万计的 GPU。它引入了分层帮派调度、拓扑感知放置、多级自动扩展和显式启动顺序,优化了 AI 工作负载的编排。

该平台的灵活性使其能够适应各种推理架构,从传统的单节点聚合推理到复杂的代理管道。通过声明式、与框架无关的方法实现了这一适应性。

高级编排能力

Grove 集成了高级特性,如多级自动扩展,迎合了单个组件、相关组件组和整个服务副本。这确保了相互依赖的组件能够适当扩展,保持最佳性能。

此外,Grove 提供系统级生命周期管理,确保在整个服务实例上进行恢复和更新,而不是单个 pod。这种方法在更新期间保持网络拓扑并最小化延迟。

实施与部署

Grove 集成在 NVIDIA Dynamo 中,这是一个可在 GitHub 上开源的模块化组件。该集成简化了分离服务架构的部署,例如使用 Qwen3 0.6B 模型管理分布式推理工作负载的设置。

部署过程包括创建命名空间、安装 Dynamo CRDs 和带有 Grove 的 Dynamo Operator,并部署配置。此设置确保启用 Grove 的 Kubernetes 集群能够高效管理复杂的 AI 推理系统。

有关部署 NVIDIA Grove 的更深入指导和访问其开源资源,请访问 ai-dynamo/grove GitHub 存储库

Image source: Shutterstock