predict.info — Premium Domain For Sale Domain only: USD 200,000. Prediction platform technology priced separately. predict.info
最新更新
7/2/2026 9:23:00 AM

NVIDIA Nemotron双塔提速2.42倍

NVIDIA Nemotron双塔提速2.42倍

据NVIDIAAI称,双塔扩散语言模型在保持98.7%质量下实现2.42倍生成速度。

原文链接

详细分析

2026年7月NVIDIA Research推出Nemotron-Labs-TwoTower扩散语言模型,通过将30B参数的Nemotron-3-Nano-30B-A3B拆分为两个塔实现并行token生成,一个塔负责上下文维护,另一个塔负责扩散式token预测,无需从头训练即可复用预训练权重,质量保留98.7%,生成速度提升2.42倍。

关键要点

  • 双塔扩散方法大幅降低推理延迟,同时保持接近原始模型的性能。
  • 现有30B检查点可直接复用,显著降低部署加速模型的成本。
  • 实时客服和互动内容生成等应用获得更高吞吐量,直接提升用户体验。

架构深度解析

该架构将模型拆分为上下文塔与生成塔,通过扩散步骤并行预测多个token,消除自回归解码的顺序瓶颈。NVIDIA提供参考实现,便于企业快速集成到现有推理引擎中。

商业影响与机会

企业可将GPU小时消耗减少一半以上,降低云成本。SaaS平台可通过更高并发支持新付费层级。早期采用者将在低延迟AI服务市场获得竞争优势。

常见问题

Nemotron-Labs-TwoTower是什么?

它是NVIDIA Research开发的扩散语言模型,通过双塔并行生成实现2.42倍加速,质量损失不到1.3%。

如何实现速度提升?

一个塔维护上下文,另一个塔并行扩散预测token,打破传统顺序解码限制。

现有模型能否直接转换?

可以,方法复用预训练权重,仅需少量适配即可。

Kye Gomez (swarms)

@KyeGomezB

Researching Multi-Agent Collaboration, Multi-Modal Models, Mamba/SSM models, reasoning, and more

World Cup