NVIDIA Dynamo 增强了代理工作流的流媒体能力

NVIDIA 推出了其 Dynamo 平台的重大更新，旨在通过增强流媒体、解析和工具调用处理来优化代理工作流。这些更新专注于提高依赖多轮交互应用程序的响应能力和准确性，例如编程助手和其他 AI 驱动的工具。

其中一个关键亮点是引入了流媒体工具调用分发。这一新功能使工具调用能够在解码后立即执行，而无需等待完整的响应回合完成。此调整不仅加快了用户的首次令牌时间 (TTFT)，还消除了代理工作流中推理和工具响应交替时的低效问题。

通过提示稳定性实现性能提升

核心改进集中在提示稳定性和 KV-cache 重用上。通过消除会话特定的前言（如 Anthropic 计费头），Dynamo 确保了跨会话的一致令牌前缀。在 NVIDIA 的测试中，这一改进将使用 52K 令牌提示的系统 TTFT 从 912ms 减少到 169ms，缩短近五倍。

对于开发者来说，在处理跨多个用户会话的大型复杂提示时，保持稳定的前缀至关重要。这些优化对像 Claude Code 和 Codex 这样的代理模型尤为重要，这些模型需要精确且可重复的交互以有效运行。

Dynamo 还全面改造了其推理和工具调用解析器，将其提取为可重用模块。这使开发者能够更好地实现解析输出与运行需求的对齐。这些更新解决了长期存在的问题，即在多轮交互中，之前的推理可能被丢弃或格式错误。在代理工作流中，推理用于解释工具调用序列，因此保留结构化推理至关重要。

例如，NVIDIA 展示了其 Nemotron-3-Super-120B 模型现在如何更有效地处理交替的推理和工具调用，确保每个推理段正确附加到其对应的工具操作。这防止了之前推理被错误分组导致上下文丢失的问题。

另一个重大改进是能够在通过侧信道分发工具调用的同时流式化令牌化响应。此前，工具调用会缓冲到响应结束后才执行。借助新的内联流媒体和分发功能，工具调用在解析后即可变得可执行，从而显著提高了实时应用的响应能力。

NVIDIA 通过时间线比较展示了 Dynamo 如何在响应中间解析和流式工具调用，从而实现即时执行。这种重新设计最大限度地减少了运行侧的复杂性，并确保了与定制系统的无缝集成。

更新还增强了 Dynamo 与 Anthropic Messages API 的兼容性，这是像 Claude Code 和 OpenClaw 这样的工具的重要接口。这些修复包括在流开始时正确的令牌计数以及服务模型元数据端点的能力，这些改进使 Dynamo 更接近于原生后端的对等功能。

对于 Codex 用户，与 OpenAI 的 Responses API 的兼容性也得到了改进。NVIDIA 解决了内部请求处理期间发生的字段保留问题，确保 Codex 特定功能（如推理摘要和工具调用截断）在不降低性能的情况下得到支持。

展望未来，NVIDIA 正在将 Dynamo 的部分服务栈作为模块化组件提供，包括协议、解析器和分词器 crate。这种模块化允许开发者构建自定义运行环境或扩展现有运行环境，而无需重复 Dynamo 的核心功能。

这些更新使 Dynamo 成为代理工作负载的领先解决方案，实现了更高效、更准确的多轮交互，涵盖了从编程到数据分析等各种应用场景。对于依赖 AI 驱动工具的开发者和企业来说，这些改进提供了更可靠和高性能的基础设施。

Image source: Shutterstock