Dynamo 0.4提升AI模型部署，具备更快性能和高级自动扩展能力

Dynamo 0.4提升AI模型部署，具备更快性能和高级自动扩展能力 - Blockchain.News

Dynamo的最新版本0.4将在AI模型部署领域掀起一场革命，其一系列增强功能包括性能提升4倍、基于服务水平目标(SLO)的自动扩展以及实时可观测性。根据NVIDIA的说法，这些改进旨在支持部署像OpenAI的gpt-oss和Moonshot AI的Kimi K2这样的先进模型，这些模型最近已成为领先的开源模型。

Dynamo 0.4的关键特性

Dynamo 0.4因其能够通过在NVIDIA Blackwell上分离过程实现高达四倍的性能提升而闻名。这种分离涉及在不同的GPU上分离模型推理的预填充和解码阶段，从而允许灵活的资源分配和提高效率。此外，大规模专家并行部署指南现在也适用于GB200 NVL72和Hopper平台。

此更新还引入了一种新的预填充-解码(PD)配置工具，简化了分离环境的设置。随着Kubernetes的集成，基于SLO的PD自动扩展可动态响应工作负载需求，确保资源的高效使用。增强的可观测性指标提供实时性能监控，通过飞行中请求重路由和早期故障检测提高系统弹性。

性能和成本效率

Dynamo 0.4的性能增强通过其在NVIDIA B200上与TensorRT-LLM运行OpenAI gpt-oss-120b模型来体现，实现了对于长输入序列显著更快的互动性。这对代码生成和总结等任务尤其有益，在不增加成本的情况下保持高吞吐量至关重要。

此外，NVIDIA GB200 NVL72上的DeepSeek-R1 671B模型在不增加推理成本的情况下实现了2.5倍的吞吐量提升，展示了Dynamo在提高性能的同时保持成本效率的能力。

AIConfigurator工具

为了帮助用户优化部署配置，Dynamo 0.4引入了AIConfigurator，一种推荐最佳PD分解配置和模型并行策略的工具。通过利用预先测量的性能数据和建模调度技术，AIConfigurator确保在指定的GPU预算内实现用户定义的SLO，并最大化吞吐量效率。

具有Planner的高级自动扩展

该发行版还提升了Planner工具功能，现在加入了基于SLO的自动扩展。此功能使推理团队能够主动优化资源分配，确保像首个Token时间(TTFT)和Token间延迟(ITL)这样的性能目标能持续达到。在预测未来流量模式并相应调整资源的帮助下，Planner有助于保持最佳性能和成本效率。

实时可观测性和容错性

实时可观测性是Dynamo 0.4的基石，使用Prometheus增强了指标收集，轻松集成到Grafana等工具中。此功能允许连续监控系统健康和性能，这对于在大规模环境中保持严格的SLO至关重要。

此外，该发布通过飞行中请求重路由提高了容错能力，减少了延迟和计算冗余。更快的故障检测机制现在绕过传统延迟，增强了系统的弹性和可靠性。

NVIDIA对AI社区的承诺显现在其对Dynamo的持续增强上，促进了大规模AI模型部署的创新和效率。

欲了解更多详情，请访问官方NVIDIA博客。

Image source: Shutterstock