Anyscale发布持久化Ray仪表板以调试AI工作负载 - Blockchain.News

Anyscale发布持久化Ray仪表板以调试AI工作负载

realtime news May 15, 2026 16:49

Anyscale为Ray引入了全新的集群和Actor仪表板,提供完整的数据持久化和增强的分布式AI工作负载调试能力。

Anyscale发布持久化Ray仪表板以调试AI工作负载

Anyscale推出了全新的Ray集群和Actor仪表板,完成了一套完全持久化的监控工具,旨在优化和调试分布式AI工作负载。此版本解决了开发人员在大规模工作中长期存在的痛点,例如短暂性数据丢失和Ray现有基础设施工具中观察能力的限制。通过在作业完成后仍然保留工作负载和集群数据,新仪表板旨在简化复杂AI流水线的调试和事后分析。

Ray是由加州大学伯克利分校RISELab开发的开源框架,是分布式机器学习和Python应用程序的基石。它支持从超参数调优到多模态AI数据处理的所有操作,正如Anyscale最近在2026年3月宣布与NVIDIA RTX GPUs的集成中所示。作为Ray的商业管理者,Anyscale继续扩展其为应对大规模AI基础设施挑战的开发人员提供的服务。

持久化仪表板:解决关键瓶颈

在这一更新之前,开发人员在使用Ray的原始仪表板时面临关键限制。集群数据是短暂的,一旦集群关闭通常会消失,这使得对失败原因的分析几乎不可能,除非重新运行昂贵的作业。此外,数据保留非常有限——死节点信息仅保留10分钟,而已终止的Actor记录上限为100,000条。这些限制使得难以有效地在数百个节点和数百万个任务之间扩展工作负载。

新的集群和Actor仪表板由Ray事件导出框架提供支持,将集群事件流式传输并存储在Anyscale管理的基础设施中。这使开发人员可以在集群终止后长时间分析失败、优化性能并比较工作负载,而无需构建自定义存储解决方案。改进包括:

  • 完全持久化:数据在关闭后仍可用于调试。
  • 可扩展性:为包含数千个节点和数百万个Actor的部署而构建。
  • 增强的用户体验:更快的筛选和搜索,以及新的Actor生命周期和集群拓扑可视化。
  • 统一调试:在工作负载级仪表板(如Train、Data)和系统级仪表板(如集群、Actor)之间无缝导航。

案例研究:调试流水线瓶颈

Anyscale通过一个涉及Ray数据流水线用于音频嵌入的真实调试场景展示了新仪表板的强大功能。该作业处理了19,000个音频片段,耗时超过一小时完成——远远超过预期的10分钟。通过仪表板,开发人员找出了问题所在:GPU节点上的Actor调度约束导致任务串行化,消除了预期的并行性收益。GPU作为集群中最昂贵的资源,在作业的大部分时间内处于闲置状态。

调试工作流展示了仪表板的无缝集成。数据仪表板标记了嵌入输出的延迟,任务和Actor仪表板将其追踪到资源分配问题,集群仪表板揭示了根本原因:GPU节点上的CPU插槽完全被预处理Actor占用。建议的修复包括减少并发性、使用调度标签或显式保留针对GPU依赖任务的资源——所有这些都提高了流水线效率,而无需重新配置集群。

为什么重要

随着AI工作负载变得越来越大且复杂,高效调试分布式系统的能力正成为开发人员的一项关键竞争力。新仪表板与AI基础设施中的更广泛趋势保持一致,其中可观察性和成本优化至关重要。Anyscale对持久化数据和统一监控工具的关注尤其重要,因为公司正在采用多模态数据流水线和以GPU为中心的架构,例如最近NVIDIA集成中所见的那些。

对于在Ray上运行生产AI系统的组织来说,增强的仪表板可以显著减少操作开销,因为它们无需重现失败并简化调试工作流。这与Anyscale的使命一致,即使Ray在大规模上变得可访问且高效,正如其最近推出的Anyscale Agent Skills通过AI编码代理加速工作负载优化所示。

通过这些更新,Anyscale不仅巩固了Ray作为领先分布式计算框架的地位,还为AI可观察性工具设定了新标准。依赖Ray进行大规模机器学习的开发人员和企业现在拥有了一种更可靠且可扩展的方式来应对分布式工作负载的复杂性。

Image source: Shutterstock