RayTurbo 数据增强将处理速度提升五倍

RayTurbo 数据增强将处理速度提升五倍 - Blockchain.News

Anyscale 宣布对 RayTurbo 数据进行了重大增强，这是一种专有数据处理平台，其性能相比开源版本 Ray 数据提高了多达五倍。根据 Anyscale 的说法，这些改进旨在通过减少处理时间和操作风险来革新大规模数据处理。

作业级检查点以增强可靠性

引人注目的功能之一是引入了作业级检查点，旨在加强生产环境中的可靠性。此功能允许推理工作负载从中断的确切点恢复，无论是由于手动还是自动集群关闭造成的。通过保留执行状态，RayTurbo 数据确保昂贵的计算资源不被浪费，从而保持紧密的交付时间表和竞争优势。

与现有的 Ray 数据在工作节点失败时重试单个任务不同，RayTurbo 的检查点能够处理重大中断，如主节点崩溃或内存不足错误，而无需完全重新启动。这一进步尤其有利于处理数百万记录的长时间批量推理作业，之前它们可能面临数小时甚至数天的停机时间。

RayTurbo 数据现在支持完全向量化聚合，将计算从 Python 迁移到优化的本机代码。此转变消除了与 Python 解释器相关的性能瓶颈，增强了现代 CPU 架构的吞吐量。新的聚合功能对于特征工程和数据汇总任务至关重要，特别是在处理大型数据集时。

除了速度增强之外，RayTurbo 数据的优化器规则已升级为自动重新排序数据管道中的操作，重点是筛选和投影任务。此优化减少了不必要的数据处理，使管道能够在不更改用户编写的代码的情况下更快完成。

综合性基准测试突出了 RayTurbo 数据相较于开源 Ray 数据的性能优势。在使用 TPC-H 订单数据集的测试中，RayTurbo 对于聚合密集型工作负载表现出 1.6x 到 2.6x 的改进，对于涉及过滤器和列选择的预处理任务表现出 3.3x 到 4.9x 的提升。

测试环境包括一个具有 m7i.4xlarge 主节点和五个 m7i.16xlarge 工作节点的集群，每个工作节点的对象存储内存设置为 128GB。这些基准测试强调了 RayTurbo 数据更有效处理大规模 AI 工作负载的能力，提供了显著的竞争优势。

Image source: Shutterstock