增强 AI 基础设施：NVIDIA Run:ai 现已在 Microsoft Azure 上线

增强 AI 基础设施：NVIDIA Run:ai 现已在 Microsoft Azure 上线 - Blockchain.News

NVIDIA Run:ai 已在 Microsoft Azure 上推出其先进的 AI 编排平台，承诺简化 AI 基础设施并优化 GPU 资源管理。这一集成旨在通过提供对强大 GPU 的动态访问来增强从大规模训练到实时推理的 AI 工作负载。

AI 基础设施挑战与解决方案

AI 工作负载通常需要强大的 GPU 支持，然而，Kubernetes 环境传统上缺乏足够的原生 GPU 管理能力。这一限制导致 GPU 使用效率低下，工作负载优先级不明确以及难以执行治理政策。NVIDIA Run:ai 通过提供智能 GPU 资源管理解决了这些问题，使组织能够高效扩展 AI 工作负载。

与 Microsoft Azure 的集成

现在在 Microsoft Marketplace 上可用，NVIDIA Run:ai 无缝集成 Azure 的 GPU 加速虚拟机系列。这些系列包括 NC、ND、NG 和 NV 系列，适用于高性能计算、深度学习和虚拟桌面工作负载等多种需求。集成利用 NVIDIA T4、A10、A100 和 H100 GPU，通过高速 NVIDIA Quantum InfiniBand 网络提高性能。

Azure Kubernetes 服务 (AKS) 增强

NVIDIA Run:ai 通过添加一个智能编排层来增强 Azure Kubernetes 服务 (AKS)，动态管理 GPU 资源。此设置允许根据实时优先级调度 AI 工作负载，减少 GPU 的空闲时间并最大化吞吐量。该平台支持多节点和多 GPU 训练任务，促进 AI 流水线的无缝扩展。

混合基础设施支持

为应对越来越复杂的 AI 需求，许多企业正在采用将本地数据中心与云平台结合的混合策略。NVIDIA Run:ai 通过提高 GPU 利用率和允许计算能力的平滑共享，支持这一方法。Deloitte 和 Dell Technologies 等组织受益于这一混合模式，在增强其 AI 操作的同时保持对敏感数据的控制。

访问和部署

NVIDIA Run:ai 作为 Microsoft Marketplace 上的私人优惠提供，允许灵活部署和自定义许可。一旦部署，它可以全面概览 GPU 资源，实现高效管理和集群健康的实时洞察。该平台支持异构 GPU 环境，促进在同一集群中管理不同类型的 GPU。

有关 NVIDIA Run:ai 功能的更多详细信息和探索其产品，请访问 NVIDIA 博客。

Image source: Shutterstock