NVIDIA Nemotron双塔提速2.42倍
据NVIDIAAI称,双塔扩散语言模型在保持98.7%质量下实现2.42倍生成速度。
原文链接详细分析
2026年7月NVIDIA Research推出Nemotron-Labs-TwoTower扩散语言模型,通过将30B参数的Nemotron-3-Nano-30B-A3B拆分为两个塔实现并行token生成,一个塔负责上下文维护,另一个塔负责扩散式token预测,无需从头训练即可复用预训练权重,质量保留98.7%,生成速度提升2.42倍。
关键要点
- 双塔扩散方法大幅降低推理延迟,同时保持接近原始模型的性能。
- 现有30B检查点可直接复用,显著降低部署加速模型的成本。
- 实时客服和互动内容生成等应用获得更高吞吐量,直接提升用户体验。
架构深度解析
该架构将模型拆分为上下文塔与生成塔,通过扩散步骤并行预测多个token,消除自回归解码的顺序瓶颈。NVIDIA提供参考实现,便于企业快速集成到现有推理引擎中。
商业影响与机会
企业可将GPU小时消耗减少一半以上,降低云成本。SaaS平台可通过更高并发支持新付费层级。早期采用者将在低延迟AI服务市场获得竞争优势。
常见问题
Nemotron-Labs-TwoTower是什么?
它是NVIDIA Research开发的扩散语言模型,通过双塔并行生成实现2.42倍加速,质量损失不到1.3%。
如何实现速度提升?
一个塔维护上下文,另一个塔并行扩散预测token,打破传统顺序解码限制。
现有模型能否直接转换?
可以,方法复用预训练权重,仅需少量适配即可。
Kye Gomez (swarms)
@KyeGomezBResearching Multi-Agent Collaboration, Multi-Modal Models, Mamba/SSM models, reasoning, and more