NVIDIA Dynamo 解决 AI 推理中 KV 缓存瓶颈

NVIDIA Dynamo 解决 AI 推理中 KV 缓存瓶颈 - Blockchain.News

NVIDIA 推出了最新解决方案 NVIDIA Dynamo，旨在解决 AI 推理中日益增长的键值 (KV) 缓存瓶颈问题，特别是像 GPT-OSS 和 DeepSeek-R1 这样的大型语言模型 (LLM)。随着这些模型的扩展，高效管理推理变得越来越困难，因此需要创新解决方案。

了解 KV 缓存

KV 缓存是 LLM 注意机制的重要组成部分，在推理的初始阶段存储中间数据。然而，当输入提示变长时，KV 缓存增长，需求大量 GPU 内存。当内存达到极限时，可以选择清除缓存部分、限制提示长度或增加昂贵的 GPU，这些都带来了挑战。

NVIDIA Dynamo 引入 KV 缓存卸载技术，将缓存从 GPU 内存转移到如 CPU RAM 和 SSD 等经济实惠的存储解决方案中。通过 NIXL 传输库实现的这种策略，有助于避免重新计算成本，并通过在减少 GPU 内存使用的同时保持提示大小来改善用户体验。

通过卸载 KV 缓存，推理服务可以支持更长的上下文窗口，提高并发性并降低基础设施成本。此方法还允许更快的响应时间和更好的用户体验，使推理服务更加可扩展且成本效益更高。

卸载在长会话、高并发或共享内容的情况下特别有利。它有助于保留大型提示前缀，提高吞吐量，并在不需要额外硬件的情况下优化资源使用。

Dynamo KV 块管理器 (KVBM) 系统支持缓存卸载，无缝集成至 NVIDIA TensorRT-LLM 和 vLLM 等 AI 推理引擎。通过将内存管理与特定引擎分离，KVBM 简化了集成，使存储和计算可以独立发展。

如 Vast 和 WEKA 等行业参与者已成功与 Dynamo 集成，展示了显著的吞吐量提高，并确认了 KV 缓存卸载的可行性。这些集成强调了 Dynamo 在支持大规模 AI 工作负载中的潜力。

欲了解更多详情，请访问 NVIDIA 博客。

Image source: Shutterstock