predict.info — Premium Domain For Sale Domain only: USD 200,000. Prediction platform technology priced separately. predict.info
最新更新
6/27/2026 11:14:00 AM

TriAttention破解KV缓存内存瓶颈

TriAttention破解KV缓存内存瓶颈

据@_avichawla称,分页注意力阻止释放显存;英伟达TriAttention压缩并加速解码。

原文链接

详细分析

大型语言模型服务中的KV缓存压缩面临内存碎片难题。在vLLM平台上运行长推理轨迹时,即使驱逐90%缓存令牌,显存占用仍保持不变,导致GPU持续内存不足。这一现象源于分页注意力机制而非压缩算法本身。

关键要点

  • vLLM的分页注意力将KV缓存划分为固定块,仅当块内所有槽位清空时才释放内存,分散驱逐难以清空整块。
  • FlashAttention等生产内核丢弃完整注意力分数矩阵,无法直接提供驱逐所需的令牌重要性信号。
  • NVIDIA TriAttention通过几何评分和定期压缩解决碎片问题,实现长轨迹下10.7倍KV内存节省。

分页注意力与KV缓存碎片分析

KV缓存为每个生成令牌存储键值向量,是推理模型的主要内存消耗来源。32K令牌思维链序列在4位量化32B模型上容易耗尽24GB显存。重要性驱逐策略保留高价值令牌,但分页注意力将内存分为约16令牌的固定物理块。只有整块为空时才归还分配器。由于幸存令牌分散分布,大多数块仍保留至少一个令牌,导致几乎无内存释放。

有效内存释放的压缩要求

将新令牌放入部分空闲槽位会破坏顺序,注意力计算需额外元数据跟踪位置。定期压缩将幸存令牌前移可清空整块并保持顺序。

业务影响与商业机会

规模化部署推理模型的企业面临GPU集群成本上升。块感知压缩可减少每用户GPU数量,降低运营支出并提升推理服务利润。提供商可通过上下文长度分级定价实现变现。集成挑战在于不破坏现有流水线,解决方案是模块化扩展每固定解码步触发压缩。能效法规进一步推动采用。

未来展望与行业变化

未来推理引擎将内置几何评分与自动压缩,将竞争优势转向最小化物理碎片的厂商。行业将标准化尊重块边界的驱逐策略接口。道德实践要求以释放块数而非驱逐令牌数报告节省,避免误导性声明。这些优化将支持在普通硬件上广泛部署推理模型。

常见问题

为什么驱逐多数KV令牌无法降低vLLM显存使用?

分页注意力要求整块清空才能释放内存,分散幸存者阻止这一过程。

FlashAttention为何与典型KV驱逐方法不兼容?

它分块计算注意力并丢弃完整分数矩阵,移除了驱逐决策所需信号。

TriAttention如何同时解决内存与速度问题?

它利用键查询几何进行评分,无需物化注意力矩阵,并每128令牌执行压缩以释放完整块。

Avi Chawla

@_avichawla

Daily tutorials and insights on DS, ML, LLMs, and RAGs • Co-founder

World Cup