NVIDIA NeMo RL通过端到端FP8精度训练实现48%的加速

NVIDIA NeMo RL通过端到端FP8精度训练实现48%的加速 - Blockchain.News

NVIDIA推出了一套全面的FP8精度强化学习训练方法，在保持与传统BF16方法精度一致的同时，训练吞吐量提升了多达48%。这项技术的推出对AI基础设施成本和GPU计算经济性有着重要意义。

这一技术由NVIDIA的黄谷月在技术博客中详细介绍，解决了强化学习训练中最棘手的问题之一：在使用不同精度级别的独立引擎时，生成阶段和训练阶段之间的数值差异。

技术突破

传统的强化学习管道使用vLLM进行数据生成，使用Megatron Core进行训练——两者拥有独特的CUDA内核，从而引入累积的数值差异。这些差异在较低的精度级别上被放大，从而历史上限制了FP8的采用。

NVIDIA的解决方案是：在数据生成和训练阶段一致性地应用FP8，而不是混合使用不同的精度级别。在Llama 3.1 8B Instruct模型上的测试显示，端到端FP8的验证精度为0.613，而BF16为0.616——几乎消除了差距。同时，仅在生成阶段使用FP8会使精度下降至0.586。

该方法采用块级量化FP8（E4M3格式），权重的粒度为128x128，激活值的粒度为1x128。线性层以FP8数学运行，其理论峰值吞吐量为BF16的2倍，而注意力层、归一化和非线性函数仍然在BF16中运行。

仅在线性层上，FP8方法即可带来稳定的15-25%的吞吐量提升。理论上的2倍加速与实际收益之间的差距来自注意力层仍然使用BF16，以及量化内核的开销。

将FP8扩展到KV缓存和注意力操作使整体加速相较BF16基线提升至约48%。挑战在于：强化学习中不断更新的策略权重需要在每次训练步骤后动态重新校准量化尺度。NVIDIA的方法为此增加了大约2-3%的开销，但这种轻微的代价换来了显著的加速效果。

在Qwen3-30B（一种专家模型混合架构）上的测试显示，FP8和BF16配置之间的精度曲线匹配，表明该方法可扩展到不同的架构。

用于支持高级AI助手的推理模型的强化学习训练需要大量计算资源。48%的加速意味着减少了GPU使用时间以及降低了训练这些系统的电费成本。

启用精度保持的重点采样技术同样可能具有重要价值。通过在生成和训练模型之间按每个token校正分布不匹配，它能够在不牺牲模型质量的情况下实现激进的精度降低。

完整实现已在NVIDIA的开源NeMo RL库中提供，并为Llama 3.1 8B和Moonlight 16B模型预先配置了训练方法。高级用户可以对该方法进行微调——例如将特定的Transformer层保持在BF16，或切换到2的幂次缩放因子以进行额外优化。

对于在模型复杂性增加的同时计算成本不断上升的AI基础设施运营商来说，这代表了一种不需要硬件升级的有效效率杠杆——只需要更智能地利用现有的H100能力。

Image source: Shutterstock