NVIDIA NVL72:通过专家并行化变革MoE模型扩展
realtime news Oct 20, 2025 15:45
NVIDIA的NVL72系统通过引入广域专家并行化,优化性能并降低成本,正在改变大型MoE模型的部署。
根据NVIDIA的博客,NVIDIA正在通过其NVL72机架级系统推进大规模混合专家(MoE)模型的部署,利用广域专家并行化(Wide-EP)来优化性能并降低成本。这种方法解决了扩展MoE架构的挑战,后者比密集模型更为高效,因为它在每个标记上仅激活一部分训练参数。
专家并行化及其影响
专家并行化(EP)策略性地将MoE模型的专家分布到多个GPU上,提高了计算和内存带宽的利用率。随着像DeepSeek-R1这样的模型扩展到数千亿参数,EP对于保持高性能和减少内存压力变得至关重要。
大规模EP,通过将专家分布到大量GPU上来增加带宽和支持更大的批处理尺寸,从而提高GPU的利用率。然而,它引入了新的系统级限制,NVIDIA的TensorRT-LLM Wide-EP旨在通过针对计算和内存瓶颈的算法优化来解决这些问题。
系统设计与架构
扩展EP的有效性在很大程度上依赖于系统设计与架构,特别是互连带宽和拓扑结构,这促进了高效的内存移动与通信。NVIDIA的NVL72系统使用优化的软件和内核来管理专家间的通信流量,以确保大规模EP部署的实用性和效率。
解决通信开销
在大规模EP中,特别是在推理解码阶段,当分布式专家必须交换信息时,通信开销是一个重大挑战。NVIDIA的NVLink技术,其130 TB/s的总带宽,在减轻这些开销方面起到了关键作用,使大规模EP成为可能。
内核优化与负载均衡
为了优化专家路由,实现了自定义通信内核以有效管理非静态数据大小。NVIDIA的专家并行负载平衡器(EPLB)通过重新分配专家来进一步增强负载均衡,以防止GPU的过度或不足利用,这对于在实时生产系统中维持效率至关重要。
对AI推理的影响
在NVIDIA的NVL72系统上使用的广域EP为MoE模型提供了可扩展的解决方案,减少了权重加载压力并提高了GroupGEMM的效率。在测试中,大型EP配置显示出高达1.8倍的每GPU吞吐量,相比于较小的设置,显示出了显著的性能提升潜力。
广域EP的进步不仅提高了吞吐量和延迟,还通过增加并发性和GPU效率提升了系统经济性。这使得NVIDIA的NVL72成为万亿参数模型具有成本效益部署的关键参与者,为开发者、研究人员和基础设施团队提供了优化AI工作负载的新机会。
Image source: Shutterstock