TorchForge RL 管道现已在 Together AI 的云端可操作 - Blockchain.News

TorchForge RL 管道现已在 Together AI 的云端可操作

realtime news Dec 04, 2025 18:04

Together AI 在其云平台上引入了 TorchForge RL 管道,通过 BlackJack 训练演示提升了分布式训练和沙箱环境。

TorchForge RL 管道现已在 Together AI 的云端可操作

根据 together.ai,TorchForge 强化学习 (RL) 管道现已无缝操作于 Together AI 的即时集群上,提供对分布式训练、工具执行和沙箱环境的强大支持,已通过一个开源的 BlackJack 训练演示展示。

AI 原生云:下一代 RL 的基础

在快速发展的强化学习领域,构建灵活且可扩展的系统需要兼容且高效的计算框架和工具。现代 RL 管道已超越基础的训练循环,现大量依赖于分布式演练、高吞吐量推理,以及 CPU 和 GPU 资源的协调使用。

包括 TorchForge 和 Monarch 在内的综合 PyTorch 堆栈现在可以在 Together Instant Clusters 上进行分布式训练。这些集群提供:

  • 低延迟 GPU 通信: 利用 InfiniBand/NVLink 拓扑结构,实现高效的 RDMA 数据传输和分布式 actor 消息传递。
  • 一致的集群引导: 预配置了驱动程序、NCCL、CUDA 和 GPU 操作员,使 PyTorch 分布式任务无需手动设置即可运行。
  • 异构 RL 工作负载调度: 针对策略副本和训练器优化的 GPU 节点,以及针对环境和工具执行优化的 CPU 节点。

Together AI 的集群非常适合需要结合 GPU 绑定模型计算和 CPU 绑定环境工作负载的 RL 框架。

高级工具集成和演示

大量 RL 工作负载涉及执行工具、运行代码或与沙箱环境交互。Together AI 的平台通过以下方式原生支持这些需求:

  • Together CodeSandbox: 微型虚拟机环境,专为工具使用、编码任务和模拟量身定制。
  • Together Code Interpreter: 提供快速、隔离的 Python 执行,适用于基于单元测试的奖励函数或代码评估任务。

CodeSandbox 和 Code Interpreter 皆可与 OpenEnv 和 TorchForge 环境服务集成,使演练工作者能够在训练期间使用这些工具。

BlackJack 训练演示

Together AI 已发布在其即时集群上运行 TorchForge RL 管道的演示,与托管在 Together CodeSandbox 上的 OpenEnv 环境交互。这个演示,改编自 Meta 的参考实现,使用 GRPO 训练 Qwen 1.5B 模型来玩 BlackJack。RL 管道集成了一个 vLLM 策略服务器、BlackJack 环境、参考模型、离策略重放缓冲区和一个通过 Monarch 的 actor mesh 连接的 TorchTitan 训练器,并使用 TorchStore 进行权重同步。

OpenEnv GRPO BlackJack 仓库包括 Kubernetes 清单和设置脚本。部署和训练启动通过简单的 kubectl 命令得以简化,允许对模型配置和 GRPO 超参数进行实验。

此外,一个独立的集成将 Together 的 Code Interpreter 封装为 OpenEnv 环境,使 RL 代理能够像对待其他环境一样与 Interpreter 进行交互。此集成允许 RL 管道应用于各种任务,如编码和数学推理。

这些演示表明,可以轻松地在 Together AI Cloud 上进行复杂的多组件 RL 训练,为 PyTorch 生态系统中的灵活开放 RL 框架奠定基础,并可在 Together AI Cloud 上扩展。

Image source: Shutterstock