Dynamo 0.4提升AI模型部署,具备更快性能和高级自动扩展能力
realtime news Aug 13, 2025 18:05
Dynamo 0.4在AI模型部署方面引入了重大进步,提供4倍更快的性能、基于SLO的自动扩展和实时可观测性,提升了效率和可扩展性。

Dynamo的最新版本0.4将在AI模型部署领域掀起一场革命,其一系列增强功能包括性能提升4倍、基于服务水平目标(SLO)的自动扩展以及实时可观测性。根据NVIDIA的说法,这些改进旨在支持部署像OpenAI的gpt-oss和Moonshot AI的Kimi K2这样的先进模型,这些模型最近已成为领先的开源模型。
Dynamo 0.4的关键特性
Dynamo 0.4因其能够通过在NVIDIA Blackwell上分离过程实现高达四倍的性能提升而闻名。这种分离涉及在不同的GPU上分离模型推理的预填充和解码阶段,从而允许灵活的资源分配和提高效率。此外,大规模专家并行部署指南现在也适用于GB200 NVL72和Hopper平台。
此更新还引入了一种新的预填充-解码(PD)配置工具,简化了分离环境的设置。随着Kubernetes的集成,基于SLO的PD自动扩展可动态响应工作负载需求,确保资源的高效使用。增强的可观测性指标提供实时性能监控,通过飞行中请求重路由和早期故障检测提高系统弹性。
性能和成本效率
Dynamo 0.4的性能增强通过其在NVIDIA B200上与TensorRT-LLM运行OpenAI gpt-oss-120b模型来体现,实现了对于长输入序列显著更快的互动性。这对代码生成和总结等任务尤其有益,在不增加成本的情况下保持高吞吐量至关重要。
此外,NVIDIA GB200 NVL72上的DeepSeek-R1 671B模型在不增加推理成本的情况下实现了2.5倍的吞吐量提升,展示了Dynamo在提高性能的同时保持成本效率的能力。
AIConfigurator工具
为了帮助用户优化部署配置,Dynamo 0.4引入了AIConfigurator,一种推荐最佳PD分解配置和模型并行策略的工具。通过利用预先测量的性能数据和建模调度技术,AIConfigurator确保在指定的GPU预算内实现用户定义的SLO,并最大化吞吐量效率。
具有Planner的高级自动扩展
该发行版还提升了Planner工具功能,现在加入了基于SLO的自动扩展。此功能使推理团队能够主动优化资源分配,确保像首个Token时间(TTFT)和Token间延迟(ITL)这样的性能目标能持续达到。在预测未来流量模式并相应调整资源的帮助下,Planner有助于保持最佳性能和成本效率。
实时可观测性和容错性
实时可观测性是Dynamo 0.4的基石,使用Prometheus增强了指标收集,轻松集成到Grafana等工具中。此功能允许连续监控系统健康和性能,这对于在大规模环境中保持严格的SLO至关重要。
此外,该发布通过飞行中请求重路由提高了容错能力,减少了延迟和计算冗余。更快的故障检测机制现在绕过传统延迟,增强了系统的弹性和可靠性。
NVIDIA对AI社区的承诺显现在其对Dynamo的持续增强上,促进了大规模AI模型部署的创新和效率。
欲了解更多详情,请访问官方NVIDIA博客。
Image source: Shutterstock