NVIDIA的NVFP4增强了在Blackwell GPU上的JAX模型训练
realtime news Jun 08, 2026 18:49
NVIDIA的NVFP4在Blackwell GPU上实现了4位精度训练,为Llama模型提供了高达73%的吞吐量提升,同时不损失精度。
NVIDIA发布了全新的NVFP4混合精度格式,旨在加速其Grace Blackwell GPU上的大规模模型训练。通过利用4位精度,NVFP4为诸如大型语言模型(LLMs)的预训练任务提供了显著的性能提升,根据2026年6月8日发布的数据,与FP8基线相比,吞吐量提高了高达73%。这些进步使得AI团队能够在更短的时间内训练更大的模型,同时不牺牲可测量的精度。
JAX是一个在机器学习工作流中广受欢迎的高性能库,在这一突破中起到了核心作用。NVIDIA将NVFP4集成到其TransformerEngine和MaxText框架中,从而能够在Blackwell硬件上实现可扩展的LLM预训练。公告的作者Max Xu强调,NVFP4能够以前所未有的效率处理现代AI训练中涉及的数万亿个tokens和数千个加速器。
NVFP4如何加速训练
NVFP4格式采用了创新技术,在推动精度边界的同时保持了精度。其关键特点包括:
- 微块缩放:更小的16元素块减少了由异常值引起的误差。
- 随机Hadamard变换:对权重梯度进行高斯化处理,以在量化过程中最小化噪声。
- 2D权重缩放:确保转置梯度和前向传播之间的值一致性。
- 随机舍入:防止由于舍入误差导致的小幅更新丢失。
这些技术在transformer的前馈层中特别有影响力——这是大多数LLM中的计算瓶颈——NVFP4在这些层中取代了FP8精度。这些层中的GEMM操作(通用矩阵乘法)被量化为NVFP4,从而显著减少了计算开销,同时在注意力机制中保持更高的精度以减轻量化噪声。
性能提升
使用Llama 3系列模型的基准测试展示了NVFP4的效率。对于Llama 3.1(4050亿参数),在NVIDIA的GB300 Grace Blackwell Ultra Superchip上进行的训练相比FP8实现了1.73倍的加速。每GPU吞吐量从2,103 TFLOPs(FP8)跃升至3,633 TFLOPs(NVFP4),突显了该格式的硬件利用能力。
NVIDIA还展示了这些提升不会导致精度损失。对于Llama 3 8B模型的训练损失,在10,000步中几乎沿着相同的曲线收敛,最终结果的差异仅为0.026 nats。这种稳定性使得NVFP4成为生产规模AI系统的一个引人注目的选项,在这些系统中,成本和时间节省至关重要。
对AI生态系统的重要性
JAX因其可扩展性和即时编译(JIT)功能而备受青睐,从NVFP4的集成中受益良多。NVIDIA的发布与AI训练生态系统中的更广泛趋势保持一致,在这些趋势中,每GPU小时的效率正受到越来越多的关注。例如,2026年早些时候,NVIDIA报告称通过在XLA中使用NVSHMEM,JAX工作负载的长上下文训练速度得到了提升,而新的基于JAX的库(如jNO)正在扩展其在神经操作符和基础模型训练中的应用。
NVFP4的更新使NVIDIA和JAX能够在与PyTorch或定制解决方案(例如xAI的专有C语言堆栈——其最近声称具有更高的GPU效率)等竞争中保持竞争力。随着AI研究预算的增长但仍然有限,像NVFP4这样的创新可能会推动采用那些能够最大化计算投资回报的框架和硬件。
如何开始
通过NVIDIA JAX Toolbox GitHub存储库中的MaxText框架可以获取NVFP4训练方案。开发人员可以尝试两种NVFP4模式——一种带有随机Hadamard变换(RHT),以改进收敛效果;另一种则没有RHT,以减少开销。公共的NVIDIA MaxText容器ghcr.io/nvidia/jax:maxtext包括所有必要的库,以便在Blackwell GPU上开始训练。
对于探索节约成本的大型模型训练的团队来说,NVFP4提供了一个强大的解决方案。通过优化吞吐量而不牺牲模型质量,NVIDIA和JAX继续巩固其在日益苛刻的AI基础设施领域中的地位。
Image source: Shutterstock