NVIDIA Nemotron双塔提速2.42倍

据NVIDIAAI称，双塔扩散语言模型在保持98.7%质量下实现2.42倍生成速度。

详细分析

2026年7月NVIDIA Research推出Nemotron-Labs-TwoTower扩散语言模型，通过将30B参数的Nemotron-3-Nano-30B-A3B拆分为两个塔实现并行token生成，一个塔负责上下文维护，另一个塔负责扩散式token预测，无需从头训练即可复用预训练权重，质量保留98.7%，生成速度提升2.42倍。

关键要点

双塔扩散方法大幅降低推理延迟，同时保持接近原始模型的性能。
现有30B检查点可直接复用，显著降低部署加速模型的成本。
实时客服和互动内容生成等应用获得更高吞吐量，直接提升用户体验。

架构深度解析

该架构将模型拆分为上下文塔与生成塔，通过扩散步骤并行预测多个token，消除自回归解码的顺序瓶颈。NVIDIA提供参考实现，便于企业快速集成到现有推理引擎中。

商业影响与机会

企业可将GPU小时消耗减少一半以上，降低云成本。SaaS平台可通过更高并发支持新付费层级。早期采用者将在低延迟AI服务市场获得竞争优势。

常见问题

Nemotron-Labs-TwoTower是什么？

它是NVIDIA Research开发的扩散语言模型，通过双塔并行生成实现2.42倍加速，质量损失不到1.3%。

如何实现速度提升？

一个塔维护上下文，另一个塔并行扩散预测token，打破传统顺序解码限制。

现有模型能否直接转换？

可以，方法复用预训练权重，仅需少量适配即可。

Nemotron 扩散模型英伟达语言模型

Kye Gomez (swarms)

@KyeGomezB

Researching Multi-Agent Collaboration, Multi-Modal Models, Mamba/SSM models, reasoning, and more