RayTurbo 数据增强将处理速度提升五倍
realtime news May 20, 2025 05:53
Anyscale 的 RayTurbo 数据引入了显著的改进,提供高达 5 倍的数据处理速度。主要功能包括作业级检查点、向量化聚合和优化的管道规则。

Anyscale 宣布对 RayTurbo 数据进行了重大增强,这是一种专有数据处理平台,其性能相比开源版本 Ray 数据提高了多达五倍。根据 Anyscale 的说法,这些改进旨在通过减少处理时间和操作风险来革新大规模数据处理。
作业级检查点以增强可靠性
引人注目的功能之一是引入了作业级检查点,旨在加强生产环境中的可靠性。此功能允许推理工作负载从中断的确切点恢复,无论是由于手动还是自动集群关闭造成的。通过保留执行状态,RayTurbo 数据确保昂贵的计算资源不被浪费,从而保持紧密的交付时间表和竞争优势。
与现有的 Ray 数据在工作节点失败时重试单个任务不同,RayTurbo 的检查点能够处理重大中断,如主节点崩溃或内存不足错误,而无需完全重新启动。这一进步尤其有利于处理数百万记录的长时间批量推理作业,之前它们可能面临数小时甚至数天的停机时间。
向量化聚合以改善数据分析
RayTurbo 数据现在支持完全向量化聚合,将计算从 Python 迁移到优化的本机代码。此转变消除了与 Python 解释器相关的性能瓶颈,增强了现代 CPU 架构的吞吐量。新的聚合功能对于特征工程和数据汇总任务至关重要,特别是在处理大型数据集时。
优化的管道规则以提高处理效率
除了速度增强之外,RayTurbo 数据的优化器规则已升级为自动重新排序数据管道中的操作,重点是筛选和投影任务。此优化减少了不必要的数据处理,使管道能够在不更改用户编写的代码的情况下更快完成。
性能基准测试及其影响
综合性基准测试突出了 RayTurbo 数据相较于开源 Ray 数据的性能优势。在使用 TPC-H 订单数据集的测试中,RayTurbo 对于聚合密集型工作负载表现出 1.6x 到 2.6x 的改进,对于涉及过滤器和列选择的预处理任务表现出 3.3x 到 4.9x 的提升。
测试环境包括一个具有 m7i.4xlarge 主节点和五个 m7i.16xlarge 工作节点的集群,每个工作节点的对象存储内存设置为 128GB。这些基准测试强调了 RayTurbo 数据更有效处理大规模 AI 工作负载的能力,提供了显著的竞争优势。
Image source: Shutterstock