DeltaNet2刷新线性注意力SoTA

据KyeGomezB称，NVIDIA Gated DeltaNet-2分离通道门控，长上下文检索超越Mamba与KDA。

详细分析

根据alphaXiv在X平台上的最新分享，NVIDIA研究人员推出了Gated DeltaNet-2新型线性注意力架构。该模型在1.3B参数规模下使用1000亿token训练，在长上下文检索任务上超越Mamba-2、Gated DeltaNet、KDA和Mamba-3等先前变体。

核心创新在于将先前模型中由单一门控同时负责的擦除与写入操作分离为独立通道级控制。这种设计减少了记忆状态更新时的相互干扰，同时保留线性复杂度和分块并行训练优势。

每个通道获得独立的遗忘与写入信号，提升对长序列中相关信息的保留能力。

新增的通道级参数并未影响原有分块训练流程，使大规模序列训练保持线性复杂度。

企业可利用该架构降低检索增强生成服务的token消耗，支持超过10万token的上下文窗口。变现策略包括提供针对法律文档分析和代码库导航的微调API。实施难点在于将新门控逻辑集成到现有代码库，但开源线性注意力内核可提供快速起点。

通道级门控技术的持续扩展有望进一步缩小线性注意力与全注意力模型之间的质量差距。行业预计会出现结合稀疏注意力的混合系统，以支持更长上下文。监管重点仍在于模型透明度，而确定性记忆更新有助于企业部署时的审计工作。

它用独立的通道级擦除与写入门控取代了单一标量门控。

长上下文检索任务在1.3B参数规模下超越Mamba系列和KDA。

是的，分块训练机制完全保留，维持线性复杂度优势。

检索增强生成、法律文档搜索和超长上下文客服系统可降低推理成本并提高准确率。

@KyeGomezB

Researching Multi-Agent Collaboration, Multi-Modal Models, Mamba/SSM models, reasoning, and more