Ray 的解耦混合并行性使多模态 AI 训练提升30% - Blockchain.News

Ray 的解耦混合并行性使多模态 AI 训练提升30%

realtime news Dec 10, 2025 01:16

Ray 的创新解耦混合并行性显著提升了多模态 AI 训练效率,实现了高达1.37倍的吞吐量提升,并克服了内存挑战。

Ray 的解耦混合并行性使多模态 AI 训练提升30%

Anyscale 称,Ray 在人工智能训练方面取得了一项重大进展,引入了一种解耦混合并行性的方法,使多模态 AI 模型的训练加速了30%。这一发展解决了训练处理如文本、图像和音频等多样数据类型模型的复杂性和计算挑战。

多模态 AI 训练中的挑战

与传统的同质大型语言模型不同,多模态 AI 模型由具有不同计算和内存需求的专用模块组成。比如,视觉语言模型 (VLMs) 将视觉编码器与大型语言模型 (LLM) 集成。这种集成导致了架构的复杂性,特别是在处理高分辨率图像和长序列时。像张量并行性和 DeepSpeed ZeRO3 这样的传统技术经常无法达到期望,导致效率低下和潜在的内存不足错误。

Ray 的创新方法

Ray 的解耦混合并行性利用其通用框架的灵活性,为多模态模型中的每个模块启用定制并行策略。通过利用 Ray 的基于 actor 的架构,开发者可以独立分配资源,优化每个模块的独特需求。这导致了复杂工作负载的更有效协调,如在 Qwen-VL 32B 模型中所展示的那样。

基准测试和性能

在 Qwen-VL 32B 模型的测试中,Ray 的方法显示出与传统方法相比高达 1.37 倍的吞吐量提升。该策略结合了视觉编码器的序列并行性和 LLM 的张量并行性,有效地管理了不同模块的内存和计算需求。此方法不仅提高了速度,还使训练序列长度达到 65,000 个tokens,超过了在 16,000 个tokens时遇到内存问题的 DeepSpeed ZeRO3 的能力。

未来前景

Ray 的解耦混合并行性在提升 AI 训练效率方面的成功,为其在更大 GPU 集群和多样化硬件配置中的应用铺平了道路。其适应各种多模态架构的能力彰显了其在 AI 开发中更广泛应用的潜力。

对于有兴趣探索这种创新方法的人来说,Ray 的实现已在其 GitHub 代码库 上提供进行试验和反馈。

Image source: Shutterstock