Place your ads here email us at info@blockchain.news
NVIDIA Dynamo 解决 AI 推理中 KV 缓存瓶颈 - Blockchain.News

NVIDIA Dynamo 解决 AI 推理中 KV 缓存瓶颈

realtime news Sep 18, 2025 20:02

NVIDIA Dynamo 引入 KV 缓存卸载技术,以解决 AI 推理中的内存瓶颈,提高大型语言模型的效率并降低成本。

NVIDIA Dynamo 解决 AI 推理中 KV 缓存瓶颈

NVIDIA 推出了最新解决方案 NVIDIA Dynamo,旨在解决 AI 推理中日益增长的键值 (KV) 缓存瓶颈问题,特别是像 GPT-OSS 和 DeepSeek-R1 这样的大型语言模型 (LLM)。随着这些模型的扩展,高效管理推理变得越来越困难,因此需要创新解决方案。

了解 KV 缓存

KV 缓存是 LLM 注意机制的重要组成部分,在推理的初始阶段存储中间数据。然而,当输入提示变长时,KV 缓存增长,需求大量 GPU 内存。当内存达到极限时,可以选择清除缓存部分、限制提示长度或增加昂贵的 GPU,这些都带来了挑战。

Dynamo 的解决方案

NVIDIA Dynamo 引入 KV 缓存卸载技术,将缓存从 GPU 内存转移到如 CPU RAM 和 SSD 等经济实惠的存储解决方案中。通过 NIXL 传输库实现的这种策略,有助于避免重新计算成本,并通过在减少 GPU 内存使用的同时保持提示大小来改善用户体验。

卸载的好处

通过卸载 KV 缓存,推理服务可以支持更长的上下文窗口,提高并发性并降低基础设施成本。此方法还允许更快的响应时间和更好的用户体验,使推理服务更加可扩展且成本效益更高。

战略性卸载

卸载在长会话、高并发或共享内容的情况下特别有利。它有助于保留大型提示前缀,提高吞吐量,并在不需要额外硬件的情况下优化资源使用。

实现与集成

Dynamo KV 块管理器 (KVBM) 系统支持缓存卸载,无缝集成至 NVIDIA TensorRT-LLM 和 vLLM 等 AI 推理引擎。通过将内存管理与特定引擎分离,KVBM 简化了集成,使存储和计算可以独立发展。

行业采用

如 Vast 和 WEKA 等行业参与者已成功与 Dynamo 集成,展示了显著的吞吐量提高,并确认了 KV 缓存卸载的可行性。这些集成强调了 Dynamo 在支持大规模 AI 工作负载中的潜力。

欲了解更多详情,请访问 NVIDIA 博客

Image source: Shutterstock