NVIDIA Dynamo 在代理AI领域进行大升级,缓存命中率高达97%
realtime news Apr 17, 2026 23:31
NVIDIA发布了针对AI编码代理的重大Dynamo更新,使企业部署中实现了高达97%的KV缓存命中率以及4倍的延迟改进。
NVIDIA 已针对 AI 编码代理发布了全面的 Dynamo 推理框架更新,解决了随着企业在自动化代码生成领域应用的加速而出现的关键瓶颈。公司报告称,多代理工作流的缓存命中率可达97.2%—这一指标直接转化为更低的计算成本和更快的响应时间。
这一时机并非偶然。Stripe 的内部代理每周现在生成超过 1,300 个拉取请求。Ramp 将其30%的合并PR归因于AI代理。Spotify 报告称,每月有650多个由代理生成的PR。在这些工作流背后,是一个在重复上下文处理下承受巨大压力的推理堆栈。
无人谈论的缓存问题
使代理AI不同于聊天机器人的是:像 Claude Code 或 Codex 这样的编码代理每个会话会进行数百次 API 调用,每次调用携带完整的对话历史记录。在第一次调用将对话前缀写入 KV 缓存后,每次后续调用在同一工作节点上的缓存命中率达到85-97%。NVIDIA 测得读写比为 11.7 倍—系统每写入一个token,就从缓存中读取近12次。
如果没有缓存感知路由,对话的第二轮大约有 1/N 的机会登陆与第一轮相同的工作节点。每次未命中都会导致完整的前缀重新计算。对于一个200K的上下文窗口,这代价不菲。
三层架构
Dynamo 的更新在三个层面上解决了这一问题。前端现在通过通用的内部表示支持多种 API 协议—v1/responses, v1/messages 和 v1/chat/completions。这点很重要,因为较新的 API 使用类型化内容块,允许编排器在思考、工具调用和文本之间看到边界,从而针对每种块类型应用不同的缓存策略。
新的“代理提示”扩展允许工具附加结构化元数据到请求中:优先级、估计的输出长度以及推测性预填充标志。当工具知道即将返回一个工具调用时,工具可以发出“提前预热此缓存”的信号。
在路由层面,NVIDIA 的 Flash Indexer 现在每秒处理 1.7 亿次操作,以支持 KV 感知的放置决策。NeMo Agent Toolkit 团队使用这些 API 构建了一个定制路由器,并测量了优先级标记请求在内存压力下 p50 首token时间减少4倍,延迟改善高达63%。
重新思考缓存淘汰
标准的 LRU 淘汰将所有缓存数据视为相同—这与代理的实际工作方式存在根本性的不匹配。系统提示每轮都会重复使用。在 <think> 块内的推理token?循环结束后通常零复用,但它们却占生成token的约40%。
更新引入了带有区域控制的选择性保留。团队可以指定系统提示块最后被淘汰,对话上下文在30秒工具调用间隙中存活,而解码token优先被淘汰。TensorRT-LLM 的新 TokenRangeRetentionConfig 使单个请求内实现此粒度成为可能。
NVIDIA 还在构建一个四层内存层次结构—GPU、CPU、本地 NVMe 和远程存储,块通过写通自动流动。当一个工作节点为一个前缀计算 KV 时,任何其他工作节点可以通过 RDMA 加载这些块而不是重新计算。四次冗余预填充计算变成一次计算和三次加载。
对部署的意义
公司一直在运行 GLM-5 和 MiniMax2.5 的内部 Dynamo 部署,以支持 Codex 和 Claude Code 工具,并与闭源推理进行了基准测试。他们的目标是在缓存再利用性能上达到优化配方的同等水平,这将在接下来的几周内发布。
对于那些已经在自己的 GPU 上运行开源模型的团队,与托管 API 提供商的差距正在缩小。cache_control API 镜像了 Anthropic 的提示缓存语义,因此熟悉该接口的团队可以迁移。
代理提示规范仍为 v1,NVIDIA 正积极向构建代理工具的团队征求反馈,了解哪些信号最为有用。鉴于 Dynamo 1.0 上月刚刚推出并被主要云提供商采用,预计随着企业代理工作负载的扩展将快速迭代。
Image source: Shutterstock