SkyRL新增视觉语言强化学习支持，助力多模态模型

由加州大学伯克利分校的Sky Computing实验室和Anyscale开发的强化学习（RL）库SkyRL宣布支持视觉语言模型（VLM）的后续训练。此更新允许团队使用监督微调（SFT）和强化学习工作流训练多模态模型，以应对日益增长的同时处理视觉和文本数据的模型需求。

多模态工作负载，例如计算机视觉任务、机器人技术和代理推理，需要模型处理视觉输入、采取行动并根据反馈进行适应。SkyRL的新功能使VLM成为其训练堆栈中的一等公民，提供了跨本地GPU或多节点集群扩展训练的工具。这是在SkyRL现有基础设施之上的进一步建设，该基础设施已经支持复杂的代理任务，如软件工程基准测试和Text-to-SQL生成。

更新的关键功能

视觉语言任务强化学习中的核心挑战之一是保持训练与推理之间的一致性。SkyRL通过引入一个分解管道解决了处理视觉输入时常见的日志概率漂移问题。通过使用vLLM推理堆栈作为真值来源，该平台确保了标记化和输入准备在整个工作流中的一致性。

这种方法不仅稳定了训练，还允许独立扩展用于输入处理的CPU工作线程，确保GPU的吞吐量不会成为瓶颈。更新还支持现成的任务配方，例如Maze2D导航和Geometry-3k，这是一个需要视觉几何推理的数据集。早期结果显示，即使在更大的模型规模（如Qwen3-VL 8B Instruct）下，训练稳定性也得到了改善。

对人工智能发展的意义

SkyRL正将自己定位为多模态模型训练中可扩展RL和SFT的首选平台。通过与Tinker API等工具集成，用户可以在自己的基础设施上部署RL工作流，从而减少对外部提供商的依赖。在训练大型模型的计算需求日益增加的情况下，这一点尤为重要。

这些进步正值多模态人工智能系统在实际应用中需求旺盛之际。需要连续决策、视觉推理和适应能力的任务——如自主导航和与工具的动态交互——将显著受益。SkyRL的模块化设计还支持快速原型开发，使研究人员和开发人员能够试验新算法和训练范式。

展望未来

SkyRL的发展路线图包括序列打包、Megatron后端支持以及具有上下文并行性的长上下文训练。这些升级预计将进一步增强其处理复杂代理工作负载的能力。对于想要深入研究VLM训练的开发人员，SkyRL提供了教程和文档，帮助他们快速入门。

随着人工智能行业将多模态系统越来越多地应用于实际用例，高效训练和微调此类模型的能力将成为关键的差异化因素。SkyRL的最新更新反映了其致力于引领这一演变的承诺，提供了一个可扩展且模块化的框架，用于最前沿的强化学习研究和部署。

Image source: Shutterstock

Bookmark

SkyRL新增视觉语言强化学习支持，助力多模态模型

更新的关键功能

对人工智能发展的意义

展望未来

Premium Sponsors

Flash News