英伟达推出GPU内存交换以优化AI模型部署成本 - Blockchain.News

英伟达推出GPU内存交换以优化AI模型部署成本 - Blockchain.News

英伟达推出GPU内存交换以优化AI模型部署成本

根据英伟达的博客，为了有效解决部署大型语言模型（LLMs）时的挑战，英伟达推出了一项名为GPU内存交换的新技术。这项创新旨在优化GPU利用率并降低部署成本，同时保持高性能。

模型部署的挑战

大规模部署LLMs时需要在高峰需求期间确保快速响应和管理与GPU使用相关的高成本之间进行权衡。组织通常面临在应对最坏情况时过度配置GPU，这可能很昂贵，或者从零开始扩展，导致延迟峰值的选择。

引入模型热交换

GPU内存交换，也被称为模型热交换，允许多个模型共享相同的GPU，即使它们的内存需求总和超过可用的GPU容量。这种方法涉及将不在使用的模型动态卸载到CPU内存，从而释放出GPU内存供活跃模型使用。当收到请求时，模型快速重新加载到GPU内存中，最大限度地减少延迟。

性能基准测试

英伟达进行了模拟来验证GPU内存交换的性能。在涉及Llama 3.1 8B Instruct、Mistral-7B和Falcon-11B等模型的测试中，与从零开始扩展相比，GPU内存交换显著减少了第一次体验时间（TTFT）。结果显示TTFT约为2-3秒，相较传统方法有显著改善。

成本效率和性能

GPU内存交换在性能和成本之间提供了一个引人注目的平衡。通过允许多个模型共享更少的GPU，组织可以在不妥协服务水平协议（SLAs）的情况下实现大量成本节约。这种方法是维持永远在线的温模型的可行替代方案，这通常因为持续的GPU占用而昂贵。

英伟达的创新扩展了AI基础设施的能力，使企业能够在最大化GPU效率的同时最小化空闲成本。随着AI应用的发展，此类进步对于维护运营效率和用户满意度至关重要。

Image source: Shutterstock