使用 Ray Data 扩展多模态数据管道

predict.info — Premium Domain For Sale Domain only: USD 200,000. Prediction platform technology priced separately. predict.info

Inquire

随着AI模型变得越来越复杂，处理大规模的多模态数据集——文本、图像、视频、音频——已成为一项关键挑战。2026年5月14日，Anyscale 详细介绍了其 Ray Data 平台如何通过解耦的流式处理方法解决这一问题，大幅提升 GPU 利用率并为企业降低处理成本。

核心问题之一是如何让 GPU（AI 基础设施中最昂贵的部分）始终处于充分利用状态。在传统设置中，视频解码或图像增强等预处理任务非常依赖 CPU，导致瓶颈，使得 GPU 长时间处于空闲状态。据微软研究，这些预处理阶段在多模态工作负载中可能占用多达 65% 的总训练周期时间。

Ray Data 通过解耦架构解决了这一问题。它不再将预处理和训练顺序或在相同节点上运行，而是将工作负载拆分：一个专门的 CPU 集群预处理数据，并直接将其流式传输到 GPU 节点，而无需将中间结果写入存储。这种设计消除了 I/O 开销，并允许 CPU 和 GPU 集群独立扩展，确保 GPU 始终有足够的数据处理。

这种影响是显著的。例如，通过 Ray Data 处理的视频分类工作负载与传统系统如 Spark 和 Flink 相比，墙上时间减少了 2.5 倍，GPU 理论利用率达到了 88%。在另一个案例中，处理 20 亿张图像的 Stable Diffusion 预训练运行，通过将预处理从 A100 GPU 节点转移到更便宜的 A10G 节点，运行时间减少了 31%。

这对 AI 和企业意味着什么

随着企业采用自主 AI 系统和多模态大语言模型（MLLMs），对可扩展多模态数据管道的需求正在迅速增长。像 Ray Data 这样的平台变得至关重要，使公司能够高效地处理数 TB，甚至数 PB 的异构数据。

主要行业参与者已经在利用这些功能。字节跳动每个任务处理超过 200 TB 的多模态数据用于嵌入生成，而据报道，Notion 在将其嵌入管道迁移到 Ray 之后，基础设施成本降低了 90% 以上。这些收益不仅是理论上的，它们已在生产环境中实现，支持从个性化搜索到自主代理的一切。

Ray Data 的关键功能

Ray Data 的成功依赖于解耦流式处理的四个关键原语：

有状态的工作器，能够一次加载昂贵的模型，并处理多个批次而无需重新初始化。
增量输出与流量控制，用于管理内存并防止阶段之间的瓶颈。
内存中的数据传输，消除将中间结果写入存储的开销。
细粒度的容错性，确保仅重新执行失败的任务，而不是整个管道。

这些功能使 Ray Data 区别于其他系统，如 Spark 和 Flink，它们要么依赖中间存储（增加延迟），要么缺乏动态资源扩展功能。Ray 还提供与现有工具的无缝集成，如用于视觉语言模型推理的 vLLM，以及基于吞吐量实时调整 CPU/GPU 分配的自动扩展能力。

市场背景

对可扩展多模态基础设施的推动是 AI 更广泛趋势的一部分。企业越来越多地使用非结构化数据——视频、图像、音频——其增长速度远超结构化数据。这推动了对高数据吞吐量且成本高效的管道的需求。

最近的发布凸显了这一变化。例如，Collibra 于 5 月 6 日推出的 AI Command Center 强调了多模态管道的治理和实时监督，而 Teradata 在 3 月发布的功能专注于自主处理企业用例中的非结构化数据。这些发展突出了有治理、可扩展的管道在支持大规模 AI 采用中的重要作用。

未来展望

随着 AI 模型继续扩展其规模和复杂性，数据管道的效率将变得更加关键。像 Ray Data 这样的工具将在这一演变中发挥核心作用，帮助组织优化其基础设施并从数据中提取最大价值。对于投资 AI 的企业来说，掌握多模态管道架构将在未来几年成为一项关键的竞争优势。

Image source: Shutterstock

Bookmark

使用 Ray Data 扩展多模态数据管道

这对 AI 和企业意味着什么

Ray Data 的关键功能

市场背景

未来展望

Premium Sponsors

Flash News