英伟达 Dynamo 与 llm-d 社区合作增强大规模 AI 推理能力

英伟达 Dynamo 与 llm-d 社区合作增强大规模 AI 推理能力 - Blockchain.News

根据英伟达，英伟达与 llm-d 社区的合作将彻底改变生成式 AI 的大规模分布式推理。这一举措将在 2025 年红帽峰会上首次亮相，旨在通过整合英伟达的 Dynamo 平台来增强开源生态系统。

加速推理数据传输

llm-d 项目专注于利用模型并行技术，如张量和流水线并行，以改善节点之间的通信。凭借英伟达的 NIXL，作为 Dynamo 平台的一部分，该项目增强了跨各种内存和存储层的数据移动，对于大规模 AI 推理至关重要。

传统上，大语言模型（LLM）在同一个 GPU 上执行计算密集的预填充阶段和内存密集的解码阶段，导致低效率。llm-d 计划在英伟达的支持下，将这些阶段分配到不同的 GPU 上，优化硬件使用效率和性能。

AI 工作负载的动态特性及其输入和输出序列长度的变化需要高级的资源规划。英伟达的 Dynamo Planner，与 llm-d Variant Autoscaler 集成，提供为 LLM 推理量身定制的智能扩展解决方案。

为了降低 GPU 内存的高成本，英伟达推出了 Dynamo KV 缓存管理器。该工具将不经常访问的数据卸载到更经济的存储选项中，以优化资源分配并降低成本。

企业可以通过集成高级推理技术的 NVIDIA NIM 获益，确保安全和高性能的 AI 部署。支持红帽 OpenShift AI，NVIDIA NIM 确保在各种环境中可靠的 AI 模型推理。

通过促进开源合作，英伟达和红帽的目标是简化 AI 的部署和扩展，同时增强 llm-d 社区的能力。鼓励开发者和研究人员在 GitHub 上贡献这些项目的持续发展，共同塑造开源 AI 推理的未来。

Image source: Shutterstock