NVIDIA MGX：AI数据中心的模块化蓝图

NVIDIA MGX：AI数据中心的模块化蓝图 - Blockchain.News

生成式AI、大型语言模型（LLM）和高性能计算的快速发展对数据中心基础设施提出了前所未有的要求。作为回应，NVIDIA推出了MGX，这是一种模块化参考架构，旨在根据NVIDIA的定义，改变企业和云服务提供商构建可扩展AI工厂的方式。

模块化架构：一种必需

NVIDIA MGX采用积木式方法，使合作伙伴能够高效设计多种系统，从而降低开发成本和上市时间。该架构支持多代产品，并提供数百种GPU、DPU、CPU、存储和网络的组合，满足AI、高性能计算（HPC）和数字孪生应用的需求。

推动NVIDIA MGX采用的三大主要趋势是：

功耗密度与冷却：现代AI计算需要更高的功耗密度和液冷基础设施。例如，NVIDIA Blackwell GPU每机柜需高达120 kW。MGX通过液冷母线和集管解决这些需求，从而促进高密度高效部署。
异构工作负载支持：企业在单一数据中心内管理多样化的工作负载。MGX的模块化兼容性使组织能够为特定工作负载量身定制基础设施，而无需重新设计整个系统。
供应链灵活性：提前集成约80%的组件简化了构建过程，将部署时间从12个月缩短到不足90天。

像MGX这样标准化的架构确保了稳定、可靠的服务器部署，支持不断演变的性能需求，同时保持互操作性。该生态系统允许灵活选择组件，减少投资风险和交付时间。

NVIDIA MGX机架系统由计算托盘和NVLink交换机托盘组成。计算托盘结合强大的CPU和GPU组合，提供AI训练和模拟工作负载所需的核心性能。NVLink交换机托盘提供必要的高速互连结构，以实现高效的GPU对GPU通信。

除了计算和交换机托盘外，MGX机架还包括强大的机械、电气和冷却基础设施，确保运营效率和可扩展性。

NVIDIA MGX在数据中心生态系统中提供显著优势。对于系统制造商，它通过利用共享参考设计来降低研发成本，并允许对NVIDIA软件栈进行全面认证。数据中心运营商受益于无缝的可扩展性和降低的总拥有成本，而AI工作负载则达到了前所未有的性能水平。

随着超过200个生态系统合作伙伴采用MGX组件，企业现在有了一条面向未来的通向艾级AI的路径，确保AI工厂可以随着硅片创新一起演变。

Image source: Shutterstock