Anyscale推出大型语言模型后训练工具，简化微调过程

Anyscale，这家以流行的Ray分布式计算框架而闻名的AI基础设施公司，推出了一款新工具，旨在简化日益复杂的大型语言模型（LLM）微调过程。2026年5月14日，公司宣布了这一名为“Anyscale LLM后训练技能”的工具，这是公司在分布式系统专业知识的基础上，推动AI开发和部署简化的更广泛努力的一部分。

这项后训练技能是Anyscale在2026年4月首次推出的Agent Skills套件的一部分。此新功能引导开发者完成复杂的微调方法选择、GPU配置以及为LLaMA、DeepSeek和Qwen等LLM量身定制的训练脚本生成过程。它支持多种微调技术，包括监督微调（SFT）、基于人类反馈的强化学习（RLHF），以及深度偏好优化（DPO）和基于可验证奖励的强化学习（RLVR）等新方法。

后训练为何重要

微调LLM对于将模型调整为特定任务已变得至关重要，但同时也比以往更加具有挑战性。像OpenAI的InstructGPT和ChatGPT这样的模型将RLHF普及为一种基础框架，但诸如RLVR（奖励通过程序验证而不是学习）等新方法在数学推理和SQL查询生成等应用中正逐渐受到关注。每种方法在数据需求、计算开销和对齐精度方面都有其独特的权衡。

然而，选择正确的方法仅仅是一个障碍的一部分。开发者还面临许多技术挑战，从GPU内存规划到框架兼容性。例如，在RLVR中优化一个拥有70亿参数的模型需要多个模型实例的精心协调，每个实例大约消耗14 GB的内存。框架不匹配或CUDA版本不兼容可能会导致训练中断。这些正是Anyscale技能旨在解决的问题。

工具的功能

Anyscale的后训练技能充当交互式助手，引导用户逐步完成项目范围定义并生成所有必要的部署工件。关键功能包括：

方法选择：根据数据集、硬件和项目目标推荐最佳微调方法。
GPU规划：提前估算内存需求和训练时间，帮助避免昂贵的运行时错误。
框架生成：为像LLaMA-Factory、SkyRL和Ray Train这样的流行工具生成即用型配置文件。
依赖管理：自动解决CUDA、PyTorch和其他关键组件的兼容性问题。

与一些专有解决方案不同，该技能输出开源代码，赋予开发者对训练循环的完全控制。此外，它提供运行前的时间和资源使用估算，确保团队在产生云成本之前能够有效规划。

AI基础设施的竞争优势

此次发布进一步巩固了Anyscale作为AI基础设施领域领先者的地位。该公司成立于2019年，总部位于旧金山，以其开源框架Ray而闻名，Ray被OpenAI、Uber、Shopify等大型企业广泛使用。Anyscale的托管平台扩展了Ray的能力，提供端到端工具，用于大规模开发、训练和部署AI模型。

近年来，该公司扩展了其产品，以解决AI工作负载的操作性挑战。今年早些时候推出的Agent Skills套件就是这一重点的典型例子。通过自动化工作负载管理的关键方面，Anyscale旨在帮助团队优化GPU利用率并缩短开发周期。

未来展望

Anyscale的LLM后训练技能现已作为Agent Skills发布的一部分提供。开发者可以通过Anyscale CLI安装它，并支持多种框架和模型架构。展望未来，Anyscale计划将该技能与其工作负载服务工具集成，实现从微调到生产部署的无缝过渡。

尽管Anyscale仍是一家私人持有的公司，但其创新持续受到关注。该公司在《福布斯》2026年美国最佳初创雇主排行榜上排名第11位，迄今已筹集2.59亿美元的资金，估值达11亿美元。随着对可扩展AI基础设施的需求不断增长，像LLM后训练技能这样的工具将使该公司在这一快速发展的市场中获得更大的份额。

Image source: Shutterstock

Bookmark

Anyscale推出大型语言模型后训练工具，简化微调过程

后训练为何重要

工具的功能

AI基础设施的竞争优势

未来展望

Premium Sponsors

Flash News