增强 AI 基础设施:NVIDIA Run:ai 现已在 Microsoft Azure 上线
realtime news Oct 31, 2025 22:26
集成至 Microsoft Azure 的 NVIDIA Run:ai,通过优化 GPU 资源管理、提升性能以及提供无缝编排来增强 AI 基础设施,实现可扩展的 AI 操作。
NVIDIA Run:ai 已在 Microsoft Azure 上推出其先进的 AI 编排平台,承诺简化 AI 基础设施并优化 GPU 资源管理。这一集成旨在通过提供对强大 GPU 的动态访问来增强从大规模训练到实时推理的 AI 工作负载。
AI 基础设施挑战与解决方案
AI 工作负载通常需要强大的 GPU 支持,然而,Kubernetes 环境传统上缺乏足够的原生 GPU 管理能力。这一限制导致 GPU 使用效率低下,工作负载优先级不明确以及难以执行治理政策。NVIDIA Run:ai 通过提供智能 GPU 资源管理解决了这些问题,使组织能够高效扩展 AI 工作负载。
与 Microsoft Azure 的集成
现在在 Microsoft Marketplace 上可用,NVIDIA Run:ai 无缝集成 Azure 的 GPU 加速虚拟机系列。这些系列包括 NC、ND、NG 和 NV 系列,适用于高性能计算、深度学习和虚拟桌面工作负载等多种需求。集成利用 NVIDIA T4、A10、A100 和 H100 GPU,通过高速 NVIDIA Quantum InfiniBand 网络提高性能。
Azure Kubernetes 服务 (AKS) 增强
NVIDIA Run:ai 通过添加一个智能编排层来增强 Azure Kubernetes 服务 (AKS),动态管理 GPU 资源。此设置允许根据实时优先级调度 AI 工作负载,减少 GPU 的空闲时间并最大化吞吐量。该平台支持多节点和多 GPU 训练任务,促进 AI 流水线的无缝扩展。
混合基础设施支持
为应对越来越复杂的 AI 需求,许多企业正在采用将本地数据中心与云平台结合的混合策略。NVIDIA Run:ai 通过提高 GPU 利用率和允许计算能力的平滑共享,支持这一方法。Deloitte 和 Dell Technologies 等组织受益于这一混合模式,在增强其 AI 操作的同时保持对敏感数据的控制。
访问和部署
NVIDIA Run:ai 作为 Microsoft Marketplace 上的私人优惠提供,允许灵活部署和自定义许可。一旦部署,它可以全面概览 GPU 资源,实现高效管理和集群健康的实时洞察。该平台支持异构 GPU 环境,促进在同一集群中管理不同类型的 GPU。
有关 NVIDIA Run:ai 功能的更多详细信息和探索其产品,请访问 NVIDIA 博客。
Image source: Shutterstock