NVIDIA通过NeMo Automodel提升PyTorch的高效MoE训练 - Blockchain.News

NVIDIA通过NeMo Automodel提升PyTorch的高效MoE训练 - Blockchain.News

NVIDIA通过NeMo Automodel提升PyTorch的高效MoE训练

NVIDIA发布了NeMo Automodel，这是一项革命性的开发，旨在简化在PyTorch中进行大规模专家混合（MoE）模型的训练。据NVIDIA的公告，这一创新解决方案旨在普及先进的模型训练，使来自各个行业的开发者更易于使用。

为开发者提供的NeMo Automodel

NeMo Automodel是开源的NVIDIA NeMo框架的一部分，允许开发者使用熟悉的PyTorch工具来训练大型MoE模型。该解决方案结合了NVIDIA的性能优化与PyTorch的分布式能力，使模型可以在众多GPU上高效扩展，无需复杂的基础设施管理。

这一发展尤为重要，因为它解决了与MoE训练相关的长期挑战，如专家并行化、token路由开销和内存管理。通过克服这些障碍，NeMo Automodel使模型在H100系统上的每个GPU达到超过200 TFLOPs的性能，显著提升了性能。

优化的架构和性能

NeMo Automodel利用了PyTorch的分布式并行性和NVIDIA的加速技术来增强MoE训练。它整合了如NVIDIA Transformer引擎等组件，这些组件支持多种注意力机制，以及Megatron-Core的先进token路由和计算策略。这些功能共同提升了吞吐量和硬件利用率，使像DeepSeek V3这样的模型在256个GPU上达到250 TFLOPs/sec/GPU。

基准测试和可访问性

基准测试显示了NeMo Automodel在不同MoE架构中的效率，每个GPU维持190到280 TFLOPs/sec的性能。这种可扩展性对于旨在通过十亿参数模型进行创新的研究人员和企业至关重要，而无需过高的成本。

通过与PyTorch无缝集成，NeMo Automodel消除了对外部模型并行库的依赖，保持了使用熟悉工具的灵活性。这一集成反映了NVIDIA致力于增强PyTorch生态系统并支持广泛的AI社区的承诺。

未来展望和社区参与

NVIDIA计划扩展NeMo Automodel的功能，增加对新MoE架构的支持，并进一步优化内核级操作。公司鼓励开发者探索并为该开源项目做出贡献，营造一个协作的环境以推进可扩展的AI训练工具。

NeMo Automodel向前迈出了重要的一步，使大规模MoE训练更易于访问、更高效且更具成本效益，为AI模型开发中的创新铺平了道路。

Image source: Shutterstock