NVIDIA Megatron 使用 Muon 优化器提升 LLM 训练效率

NVIDIA Megatron 使用 Muon 优化器提升 LLM 训练效率 - Blockchain.News

NVIDIA 正在通过将诸如 Muon 这样的先进优化器集成到 Megatron Core 框架中，推动大语言模型（LLM）训练的边界。根据 NVIDIA 2026 年 4 月 22 日的博客文章，基于高阶数学方法的 Muon 优化器在训练吞吐量上已经达到了与广泛使用的 AdamW 优化器接近的水平，同时在 NVIDIA GB300 NVL72 等大规模系统上提升了模型性能。

Muon 是 MomentUm Orthogonalized by Newton-Schulz 的缩写，是一种高阶优化算法。它在训练领先的开源模型（如 Kimi K2 和 GLM-5）中发挥了重要作用。通过利用先进的预处理技术，该优化器确保了更高的 FLOPs 利用率（每秒浮点运算），这是优化 LLM 计算效率的关键指标。

性能指标：Muon 对比 AdamW

根据 NVIDIA 报告中的表 1，Muon 在 GB300 NVL72 系统上提供了与 AdamW 相当的吞吐量。例如，Kimi K2 模型使用 Muon 达到了每 GPU 1,080 TFLOPs/s，略高于 AdamW 的每 GPU 1,051 TFLOPs/s。同样，Qwen3 30B 模型使用 Muon 达到了每 GPU 721 TFLOPs/s，而使用 AdamW 为每 GPU 713 TFLOPs/s。

这些结果是通过 NVIDIA NeMo Megatron Bridge 26.02 得到的，这是一种专为 LLM 的预训练和微调设计的 PyTorch 原生库。这些高性能基准测试突出了 Muon 在不牺牲效率的情况下，处理现代 AI 工作负载计算需求的能力。

技术创新

将 Muon 扩展到数千个 GPU 面临挑战，包括预处理期间增加的计算和内存成本，以及分布式系统中的通信瓶颈。NVIDIA 通过以下几项创新解决了这些难题：

逐层分布式优化器：模型参数的完整层分布在 GPU 上，允许高效预处理而不会导致过多的通信开销。
分布式 Newton-Schulz：两种模式（复制模式和分布式模式）允许灵活处理动量更新。复制模式最大程度减少延迟，而分布式模式优化了计算效率。
通信隐藏和 SYRK 融合：通过将参数更新与计算重叠，以及将 SYRK 操作与通信融合等技术，大幅减少了延迟，提高了整体吞吐量。

影响与未来发展

通过将 Muon 集成到 Megatron Core 中，NVIDIA 为研究人员和开发者提供了改进大规模 LLM 训练的工具。与 AdamW 近似的性能使得 Muon 成为一个有吸引力的选择，尤其是在即将推出的更新中承诺进一步提升效率。这些更新包括增强的负载均衡、更好的通信策略以及针对 SYRK 操作的高级内核优化。

对于那些渴望探索这些技术的人，NVIDIA 已通过其 Megatron Bridge GitHub 仓库提供了工具和性能配方。借助这些资源，研究人员可以在自己的 LLM 项目中实现和基准测试像 Muon 这样的新兴优化器。

Image source: Shutterstock

NVIDIA Megatron 使用 Muon 优化器提升 LLM 训练效率

性能指标：Muon 对比 AdamW

技术创新

影响与未来发展

Premium Sponsors

Flash News