SkyRL 为多模态模型增添视觉语言强化学习支持
Joerg Hiller 2026年4月24日 16:33
SkyRL 引入视觉语言强化学习,为多模态任务实现可扩展训练。了解这将如何影响人工智能发展。
SkyRL 是由加州大学伯克利分校 Sky Computing Lab 与 Anyscale 联合开发的强化学习(RL)库,近日宣布支持视觉语言模型(VLM)的后训练。此次更新允许团队使用监督微调(SFT)和 RL 工作流程训练多模态模型,满足市场对能够同时处理视觉与文本数据的模型日益增长的需求。
计算机视觉任务、机器人技术及智能体推理等多模态工作负载,要求模型处理视觉输入、执行动作并根据反馈进行调整。SkyRL 的新功能将 VLM 提升为其训练栈中的一等公民,提供工具以在本地 GPU 或多节点集群上扩展训练规模。这建立在 SkyRL 现有基础设施之上,该基础设施已支持复杂的智能体任务,如软件工程基准测试和 Text-to-SQL 生成。
此次更新的主要功能
视觉语言任务中强化学习的核心挑战之一,是保持训练与推理之间的一致性。SkyRL 通过引入解耦管道,解决了处理视觉输入时常见的对数概率漂移问题。该平台以 vLLM 推理栈作为唯一可信来源,确保词元化和输入准备在各工作流程中保持一致。
这种方式不仅稳定了训练过程,还允许独立扩展用于输入处理的 CPU 工作节点,确保 GPU 吞吐量不会成为瓶颈。此次更新还支持开箱即用的任务方案,如 Maze2D 导航和 Geometry-3k——一个需要视觉几何推理的数据集。早期结果显示,即使在较大的模型规模下(如 Qwen3-VL 8B Instruct),训练稳定性也有所提升。
对人工智能发展的影响
SkyRL 正将自身定位为多模态模型训练中可扩展 RL 和 SFT 的首选平台。通过与 Tinker API 等工具集成,用户可在自有基础设施上部署 RL 工作流程,减少对外部服务商的依赖。考虑到训练大型模型的计算需求不断增加,这一点尤为重要。
这些进展恰逢多模态人工智能系统在实际应用中需求旺盛之际。需要序贯决策、视觉推理和适应性的任务——如自主导航和与工具的动态交互——将从中大为受益。SkyRL 的模块化设计也支持快速原型开发,使研究人员和开发者能够尝试新算法和训练范式。
展望未来
SkyRL 的路线图包括序列打包、Megatron 后端支持以及具有上下文并行性的长上下文训练等功能。这些升级预计将进一步增强其处理复杂智能体工作负载的能力。对于渴望深入 VLM 训练的开发者,SkyRL 提供教程和文档以助其快速上手。
随着人工智能行业日益将多模态系统纳入实际应用场景,高效训练和微调此类模型的能力将成为关键差异化因素。SkyRL 的最新更新体现了其在这一演进浪潮中保持前沿地位的承诺,为前沿 RL 研究与部署提供可扩展的模块化框架。
图片来源:Shutterstock- skyrl
- 强化学习
- 视觉语言模型
- 人工智能训练








