Place your ads here email us at info@blockchain.news
NVIDIA 的 NVFP4 格式以 4 位精度革新 AI 训练 - Blockchain.News

NVIDIA 的 NVFP4 格式以 4 位精度革新 AI 训练

realtime news Aug 25, 2025 13:15

NVIDIA 推出 NVFP4,一种 4 位精度格式,提高了 AI 训练的速度和效率,同时保持准确性,标志着大型语言模型发展的新飞跃。

NVIDIA 的 NVFP4 格式以 4 位精度革新 AI 训练

NVIDIA 正在通过推出 NVFP4 一种具革命意义的 4 位精度格式,在 AI 训练方面取得进展。这种新的格式旨在保持 16 位计算的精度,同时提供 4 位操作的速度和效率,正如 NVIDIA 的博客 所述。

AI 工作负载和 NVFP4

AI 工作负载的需求激增,尤其是在部署大型语言模型(LLMs)时,在预训练和后训练阶段需要处理更多的标记。NVFP4 的出现成为应对这些需求的关键创新,使训练效率和基础设施优化得到显著改善。NVFP4 的引入标志着大型模型训练方式的基础性转变,为高性能 AI 模型开发设定了新标准。

理解 4 位量化

4 位量化涉及减少模型权重和激活的精度,相比标准的 16 位或 32 位浮点格式,是一种显著的精度降低。在训练过程中必须小心处理这种精度降低,以保持准确性并提高训练速度。需要采用专门的技术将高精度张量有效地映射到一组较小的量化值。

对 AI 工厂的好处

重度依赖计算基础设施的 AI 工厂将从 NVFP4 中获得巨大收益。通过减少内存需求和提高算术吞吐量,NVFP4 使 AI 工厂能够在相同硬件上显著增加处理的标记数量。这一进步允许更快的收敛周期和更多的计算单元实验,促进了更大模型的发展。

NVFP4 的预训练配方

为了实现 4 位预训练,NVIDIA 开发了量身定制的 NVFP4 预训练配方。此方法解决了动态范围、梯度波动和数值稳定性等挑战。Blackwell 架构提供对 FP4 格式的原生支持,加速了窄精度矩阵操作,非常适合于下一代部署基于 FP4 预训练的 AI 工厂。

实际应用和实验

在一个具有 120 亿参数的模型上进行的 NVFP4 实验表明,该格式在大规模模型训练方面的可行性。NVFP4 格式支持在万亿标记规模上的完整预训练,而没有通常与超低精度训练相关的不稳定性或发散问题。NVFP4 的验证损失曲线与高精度基线密切匹配,证明了其有效性。

总体而言,NVIDIA 的 NVFP4 通过提供新的速度、效率和创新标准,重新定义了 AI 训练。通过实现 4 位预训练,NVFP4 赋予 AI 工厂更快速和可持续的扩展能力,为新一代生成 AI 的发展铺平了道路。作为一种动态和不断进化的技术,NVFP4 继续为构建前沿模型的团队解锁新的机遇。

Image source: Shutterstock