NVIDIA 的 Run:ai 模型流器提升 LLM 推理速度
realtime news Sep 16, 2025 20:56
NVIDIA 推出 Run:ai 模型流器,大幅减少 GPU 环境中大型语言模型的冷启动延迟,提升用户体验和可扩展性。

在人工智能部署的重大进展中,NVIDIA 推出了 Run:ai 模型流器,这是一款旨在减少大型语言模型(LLM)推理期间冷启动延迟的工具。根据 NVIDIA 的说法,这一创新解决了 AI 开发者面临的关键挑战之一:优化模型加载到 GPU 内存中的时间。
解决冷启动延迟
冷启动延迟长期以来一直是部署 LLM 的瓶颈,尤其是在云端或大型环境中,模型需要大量的内存资源。这些延迟会显著影响用户体验和 AI 应用程序的可扩展性。NVIDIA 的 Run:ai 模型流器通过从存储中并发读取模型权重并直接将其流入 GPU 内存来减少延迟。
模型流器的基准测试
Run:ai 模型流器在各种存储类型中,例如本地 SSD 和 Amazon S3,与其他加载器如 Hugging Face Safetensors Loader 和 CoreWeave Tensorizer 进行了基准测试。结果表明,模型流器显著减少了模型加载时间,通过利用并行流和优化的存储吞吐率优于传统方法。
技术见解
模型流器的架构利用高性能 C++ 后端加速从多个存储源加载模型。它采用多线程并发读取张量,允许数据从 CPU 到 GPU 内存的无缝传输。这种方法最大限度地利用可用带宽,减少模型在加载阶段所花费的时间。
关键特性包括对各种存储类型的支持、原生 Safetensors 兼容性以及易于集成的 Python API。这些功能使模型流器成为提高不同 AI 框架推理性能的多功能工具。
比较性能
实验表明,在 GP3 SSD 存储上,通过提高模型流器的并发级别,显著减少了加载时间,实现了存储介质的最大吞吐量。在 IO2 SSD 和 S3 存储中也观察到了类似的改进,模型流器始终优于其他加载器。
对 AI 部署的影响
Run:ai 模型流器的引入标志着 AI 部署效率的显著进步。通过减少冷启动延迟和优化模型加载时间,它提升了 AI 系统的可扩展性和响应能力,特别是在需求波动的环境中。
对于部署大模型或运行在云端环境中的开发者和组织而言,模型流器提供了一个实用的解决方案,以提高推理速度和效率。通过与现有框架如 vLLM 集成,它为 AI 基础设施提供了无缝的提升。
总之,NVIDIA 的 Run:ai 模型流器将成为 AI 实践者优化模型部署和推理过程的必备工具,确保更快和更高效的 AI 操作。
Image source: Shutterstock