微软 Azure 与 NVIDIA 推出突破性 GB300 NVL72 超级计算集群以支持 AI

微软 Azure 与 NVIDIA 推出突破性 GB300 NVL72 超级计算集群以支持 AI - Blockchain.News

微软 Azure 联合 NVIDIA 推出了一款开创性的超级计算集群——NVIDIA GB300 NVL72，旨在满足 AI 模型开发的严苛需求。根据微软的最新公告，这一创新平台将进一步推动美国在 AI 领域的地位。

革新 AI 基础设施

新推出的 NDv6 GB300 VM 系列代表了业内首个采用 NVIDIA GB300 NVL72 系统的超级计算规模生产集群。该计划专为支持 OpenAI 的高级 AI 推断工作负载而量身定制。该集群由 4600 多个 NVIDIA Blackwell Ultra GPU 组成，通过 NVIDIA Quantum-X800 InfiniBand 网络平台相互连接，以确保复杂 AI 模型的高推断和训练吞吐量。

这一发展标志着 NVIDIA 和微软之间长期合作的一个里程碑，旨在构建能够处理最苛刻工作负载的 AI 基础设施。微软 Azure AI 基础设施公司副总裁 Nidhi Chappell 强调了这一成就的重要性，突显了微软和 NVIDIA 在优化现代 AI 数据中心方面的共同承诺。

强大平台：NVIDIA GB300 NVL72

Azure 的新产品核心是液冷机架级 NVIDIA GB300 NVL72 系统。每个机架集成了 72 个 NVIDIA Blackwell Ultra GPU 和 36 个 NVIDIA Grace CPU，形成了一个强大的单元，以加速大规模 AI 模型的训练和推断过程。该系统每个 VM 具备 37 TB 的快速内存和 1.44 exaflops 的 FP4 Tensor Core 性能，是处理推理模型和多模态生成 AI 所必需的。

NVIDIA Blackwell Ultra 平台在 NVIDIA 全栈 AI 平台的支持下，在训练和推断方面表现优异。最近的 MLPerf Inference v5.1 基准测试显示出创纪录的性能，相较于先前的架构，单个 GPU 在大型 AI 模型上的吞吐量提高了五倍。

先进的网络和可扩展性

超级计算集群采用两级 NVIDIA 网络架构连接超过 4600 个 GPU，确保既可以向上扩展也可以向外扩展。在每个机架内，NVIDIA NVLink Switch 结构提供了 130 TB/s 的带宽，将机架转变为一个共享内存池的统一加速器。为了实现更广泛的可扩展性，集群使用 NVIDIA Quantum-X800 InfiniBand 平台，为每个 GPU 提供 800 Gb/s 的带宽，实现整个系统的无缝通信。

微软 Azure 的集群还集成了 NVIDIA 的高级自适应路由和拥塞控制功能，提高了大规模 AI 训练和推断操作的效率。

展望 AI 的未来

全球首个生产级 NVIDIA GB300 NVL72 集群的部署标志着 AI 基础设施的重大进展。随着微软 Azure 计划扩展其 NVIDIA Blackwell Ultra GPU 的部署，预计会有更多技术创新出现，尤其是由 OpenAI 等客户驱动的创新。此发展预计将释放 AI 技术的新潜力，为未来的突破铺平道路。

欲了解有关此公告的更多信息，请访问 NVIDIA 的官方博客。

Image source: Shutterstock

微软 Azure 与 NVIDIA 推出突破性 GB300 NVL72 超级计算集群以支持 AI

革新 AI 基础设施

强大平台：NVIDIA GB300 NVL72

先进的网络和可扩展性

展望 AI 的未来

Premium Sponsors

Flash News