NVIDIA Grove 简化 Kubernetes 上的 AI 推理

NVIDIA Grove 简化 Kubernetes 上的 AI 推理 - Blockchain.News

NVIDIA 推出了 Grove，这是一个复杂的 Kubernetes API，旨在简化复杂 AI 推理工作负载的编排。根据NVIDIA的说法，此项开发解决了对多组件 AI 系统管理的高效需求。

AI 推理系统的演变

AI 推理已显著发展，从单模型、单 pod 部署过渡到由预填充、解码和视觉编码器等多个组件组成的复杂系统。这种演变要求从简单运行 pod 的副本转向将一组组件作为一个整体进行协调。

Grove 通过实现对编排过程的精确控制，解决了管理此类系统的复杂性。它允许在 Kubernetes 中将整个推理服务系统描述为单个自定义资源，方便高效的扩展和调度。

Grove 的架构支持多节点推理部署，支持从单个副本扩展到数据中心规模，支持数以万计的 GPU。它引入了分层帮派调度、拓扑感知放置、多级自动扩展和显式启动顺序，优化了 AI 工作负载的编排。

该平台的灵活性使其能够适应各种推理架构，从传统的单节点聚合推理到复杂的代理管道。通过声明式、与框架无关的方法实现了这一适应性。

Grove 集成了高级特性，如多级自动扩展，迎合了单个组件、相关组件组和整个服务副本。这确保了相互依赖的组件能够适当扩展，保持最佳性能。

此外，Grove 提供系统级生命周期管理，确保在整个服务实例上进行恢复和更新，而不是单个 pod。这种方法在更新期间保持网络拓扑并最小化延迟。

Grove 集成在 NVIDIA Dynamo 中，这是一个可在 GitHub 上开源的模块化组件。该集成简化了分离服务架构的部署，例如使用 Qwen3 0.6B 模型管理分布式推理工作负载的设置。

部署过程包括创建命名空间、安装 Dynamo CRDs 和带有 Grove 的 Dynamo Operator，并部署配置。此设置确保启用 Grove 的 Kubernetes 集群能够高效管理复杂的 AI 推理系统。

有关部署 NVIDIA Grove 的更深入指导和访问其开源资源，请访问 ai-dynamo/grove GitHub 存储库。

Image source: Shutterstock