NVIDIA 的 NVFP4 格式以 4 位精度革新 AI 训练

NVIDIA 的 NVFP4 格式以 4 位精度革新 AI 训练 - Blockchain.News

NVIDIA 正在通过推出 NVFP4 一种具革命意义的 4 位精度格式，在 AI 训练方面取得进展。这种新的格式旨在保持 16 位计算的精度，同时提供 4 位操作的速度和效率，正如 NVIDIA 的博客所述。

AI 工作负载和 NVFP4

AI 工作负载的需求激增，尤其是在部署大型语言模型（LLMs）时，在预训练和后训练阶段需要处理更多的标记。NVFP4 的出现成为应对这些需求的关键创新，使训练效率和基础设施优化得到显著改善。NVFP4 的引入标志着大型模型训练方式的基础性转变，为高性能 AI 模型开发设定了新标准。

4 位量化涉及减少模型权重和激活的精度，相比标准的 16 位或 32 位浮点格式，是一种显著的精度降低。在训练过程中必须小心处理这种精度降低，以保持准确性并提高训练速度。需要采用专门的技术将高精度张量有效地映射到一组较小的量化值。

重度依赖计算基础设施的 AI 工厂将从 NVFP4 中获得巨大收益。通过减少内存需求和提高算术吞吐量，NVFP4 使 AI 工厂能够在相同硬件上显著增加处理的标记数量。这一进步允许更快的收敛周期和更多的计算单元实验，促进了更大模型的发展。

为了实现 4 位预训练，NVIDIA 开发了量身定制的 NVFP4 预训练配方。此方法解决了动态范围、梯度波动和数值稳定性等挑战。Blackwell 架构提供对 FP4 格式的原生支持，加速了窄精度矩阵操作，非常适合于下一代部署基于 FP4 预训练的 AI 工厂。

在一个具有 120 亿参数的模型上进行的 NVFP4 实验表明，该格式在大规模模型训练方面的可行性。NVFP4 格式支持在万亿标记规模上的完整预训练，而没有通常与超低精度训练相关的不稳定性或发散问题。NVFP4 的验证损失曲线与高精度基线密切匹配，证明了其有效性。

总体而言，NVIDIA 的 NVFP4 通过提供新的速度、效率和创新标准，重新定义了 AI 训练。通过实现 4 位预训练，NVFP4 赋予 AI 工厂更快速和可持续的扩展能力，为新一代生成 AI 的发展铺平了道路。作为一种动态和不断进化的技术，NVFP4 继续为构建前沿模型的团队解锁新的机遇。

Image source: Shutterstock