NVIDIA Megatron 使用 Muon 优化器提升 LLM 训练效率
realtime news Apr 22, 2026 20:51
NVIDIA 将 Muon 和先进优化器集成到 Megatron 中,以接近 AdamW 的吞吐量增强大规模 LLM 训练。
NVIDIA 正在通过将诸如 Muon 这样的先进优化器集成到 Megatron Core 框架中,推动大语言模型(LLM)训练的边界。根据 NVIDIA 2026 年 4 月 22 日的博客文章,基于高阶数学方法的 Muon 优化器在训练吞吐量上已经达到了与广泛使用的 AdamW 优化器接近的水平,同时在 NVIDIA GB300 NVL72 等大规模系统上提升了模型性能。
Muon 是 MomentUm Orthogonalized by Newton-Schulz 的缩写,是一种高阶优化算法。它在训练领先的开源模型(如 Kimi K2 和 GLM-5)中发挥了重要作用。通过利用先进的预处理技术,该优化器确保了更高的 FLOPs 利用率(每秒浮点运算),这是优化 LLM 计算效率的关键指标。
性能指标:Muon 对比 AdamW
根据 NVIDIA 报告中的表 1,Muon 在 GB300 NVL72 系统上提供了与 AdamW 相当的吞吐量。例如,Kimi K2 模型使用 Muon 达到了每 GPU 1,080 TFLOPs/s,略高于 AdamW 的每 GPU 1,051 TFLOPs/s。同样,Qwen3 30B 模型使用 Muon 达到了每 GPU 721 TFLOPs/s,而使用 AdamW 为每 GPU 713 TFLOPs/s。
这些结果是通过 NVIDIA NeMo Megatron Bridge 26.02 得到的,这是一种专为 LLM 的预训练和微调设计的 PyTorch 原生库。这些高性能基准测试突出了 Muon 在不牺牲效率的情况下,处理现代 AI 工作负载计算需求的能力。
技术创新
将 Muon 扩展到数千个 GPU 面临挑战,包括预处理期间增加的计算和内存成本,以及分布式系统中的通信瓶颈。NVIDIA 通过以下几项创新解决了这些难题:
- 逐层分布式优化器:模型参数的完整层分布在 GPU 上,允许高效预处理而不会导致过多的通信开销。
- 分布式 Newton-Schulz:两种模式(复制模式和分布式模式)允许灵活处理动量更新。复制模式最大程度减少延迟,而分布式模式优化了计算效率。
- 通信隐藏和 SYRK 融合:通过将参数更新与计算重叠,以及将 SYRK 操作与通信融合等技术,大幅减少了延迟,提高了整体吞吐量。
影响与未来发展
通过将 Muon 集成到 Megatron Core 中,NVIDIA 为研究人员和开发者提供了改进大规模 LLM 训练的工具。与 AdamW 近似的性能使得 Muon 成为一个有吸引力的选择,尤其是在即将推出的更新中承诺进一步提升效率。这些更新包括增强的负载均衡、更好的通信策略以及针对 SYRK 操作的高级内核优化。
对于那些渴望探索这些技术的人,NVIDIA 已通过其 Megatron Bridge GitHub 仓库 提供了工具和性能配方。借助这些资源,研究人员可以在自己的 LLM 项目中实现和基准测试像 Muon 这样的新兴优化器。
Image source: Shutterstock