使用 Ray Data 扩展多模态数据管道 - Blockchain.News

使用 Ray Data 扩展多模态数据管道

realtime news May 14, 2026 02:21

Ray Data 引领可扩展多模态数据管道的开发,优化 GPU 利用率并降低 AI 工作负载成本。

使用 Ray Data 扩展多模态数据管道

随着AI模型变得越来越复杂,处理大规模的多模态数据集——文本、图像、视频、音频——已成为一项关键挑战。2026年5月14日,Anyscale 详细介绍了其 Ray Data 平台如何通过解耦的流式处理方法解决这一问题,大幅提升 GPU 利用率并为企业降低处理成本。

核心问题之一是如何让 GPU(AI 基础设施中最昂贵的部分)始终处于充分利用状态。在传统设置中,视频解码或图像增强等预处理任务非常依赖 CPU,导致瓶颈,使得 GPU 长时间处于空闲状态。据微软研究,这些预处理阶段在多模态工作负载中可能占用多达 65% 的总训练周期时间。

Ray Data 通过解耦架构解决了这一问题。它不再将预处理和训练顺序或在相同节点上运行,而是将工作负载拆分:一个专门的 CPU 集群预处理数据,并直接将其流式传输到 GPU 节点,而无需将中间结果写入存储。这种设计消除了 I/O 开销,并允许 CPU 和 GPU 集群独立扩展,确保 GPU 始终有足够的数据处理。

这种影响是显著的。例如,通过 Ray Data 处理的视频分类工作负载与传统系统如 Spark 和 Flink 相比,墙上时间减少了 2.5 倍,GPU 理论利用率达到了 88%。在另一个案例中,处理 20 亿张图像的 Stable Diffusion 预训练运行,通过将预处理从 A100 GPU 节点转移到更便宜的 A10G 节点,运行时间减少了 31%。

这对 AI 和企业意味着什么

随着企业采用自主 AI 系统和多模态大语言模型(MLLMs),对可扩展多模态数据管道的需求正在迅速增长。像 Ray Data 这样的平台变得至关重要,使公司能够高效地处理数 TB,甚至数 PB 的异构数据。

主要行业参与者已经在利用这些功能。字节跳动每个任务处理超过 200 TB 的多模态数据用于嵌入生成,而据报道,Notion 在将其嵌入管道迁移到 Ray 之后,基础设施成本降低了 90% 以上。这些收益不仅是理论上的,它们已在生产环境中实现,支持从个性化搜索到自主代理的一切。

Ray Data 的关键功能

Ray Data 的成功依赖于解耦流式处理的四个关键原语:

  • 有状态的工作器,能够一次加载昂贵的模型,并处理多个批次而无需重新初始化。
  • 增量输出与流量控制,用于管理内存并防止阶段之间的瓶颈。
  • 内存中的数据传输,消除将中间结果写入存储的开销。
  • 细粒度的容错性,确保仅重新执行失败的任务,而不是整个管道。

这些功能使 Ray Data 区别于其他系统,如 Spark 和 Flink,它们要么依赖中间存储(增加延迟),要么缺乏动态资源扩展功能。Ray 还提供与现有工具的无缝集成,如用于视觉语言模型推理的 vLLM,以及基于吞吐量实时调整 CPU/GPU 分配的自动扩展能力。

市场背景

对可扩展多模态基础设施的推动是 AI 更广泛趋势的一部分。企业越来越多地使用非结构化数据——视频、图像、音频——其增长速度远超结构化数据。这推动了对高数据吞吐量且成本高效的管道的需求。

最近的发布凸显了这一变化。例如,Collibra 于 5 月 6 日推出的 AI Command Center 强调了多模态管道的治理和实时监督,而 Teradata 在 3 月发布的功能专注于自主处理企业用例中的非结构化数据。这些发展突出了有治理、可扩展的管道在支持大规模 AI 采用中的重要作用。

未来展望

随着 AI 模型继续扩展其规模和复杂性,数据管道的效率将变得更加关键。像 Ray Data 这样的工具将在这一演变中发挥核心作用,帮助组织优化其基础设施并从数据中提取最大价值。对于投资 AI 的企业来说,掌握多模态管道架构将在未来几年成为一项关键的竞争优势。

Image source: Shutterstock