英伟达推出GPU内存交换以优化AI模型部署成本
realtime news Sep 02, 2025 19:39
英伟达的GPU内存交换技术旨在通过优化GPU利用率和最小化延迟来降低部署大型语言模型的成本并提高性能。

根据英伟达的博客,为了有效解决部署大型语言模型(LLMs)时的挑战,英伟达推出了一项名为GPU内存交换的新技术。这项创新旨在优化GPU利用率并降低部署成本,同时保持高性能。
模型部署的挑战
大规模部署LLMs时需要在高峰需求期间确保快速响应和管理与GPU使用相关的高成本之间进行权衡。组织通常面临在应对最坏情况时过度配置GPU,这可能很昂贵,或者从零开始扩展,导致延迟峰值的选择。
引入模型热交换
GPU内存交换,也被称为模型热交换,允许多个模型共享相同的GPU,即使它们的内存需求总和超过可用的GPU容量。这种方法涉及将不在使用的模型动态卸载到CPU内存,从而释放出GPU内存供活跃模型使用。当收到请求时,模型快速重新加载到GPU内存中,最大限度地减少延迟。
性能基准测试
英伟达进行了模拟来验证GPU内存交换的性能。在涉及Llama 3.1 8B Instruct、Mistral-7B和Falcon-11B等模型的测试中,与从零开始扩展相比,GPU内存交换显著减少了第一次体验时间(TTFT)。结果显示TTFT约为2-3秒,相较传统方法有显著改善。
成本效率和性能
GPU内存交换在性能和成本之间提供了一个引人注目的平衡。通过允许多个模型共享更少的GPU,组织可以在不妥协服务水平协议(SLAs)的情况下实现大量成本节约。这种方法是维持永远在线的温模型的可行替代方案,这通常因为持续的GPU占用而昂贵。
英伟达的创新扩展了AI基础设施的能力,使企业能够在最大化GPU效率的同时最小化空闲成本。随着AI应用的发展,此类进步对于维护运营效率和用户满意度至关重要。
Image source: Shutterstock