TorchForge RL 管道现已在 Together AI 的云端可操作

predict.info — Premium Domain For Sale Domain only: USD 200,000. Prediction platform technology priced separately. predict.info

Inquire

根据 together.ai，TorchForge 强化学习 (RL) 管道现已无缝操作于 Together AI 的即时集群上，提供对分布式训练、工具执行和沙箱环境的强大支持，已通过一个开源的 BlackJack 训练演示展示。

AI 原生云：下一代 RL 的基础

在快速发展的强化学习领域，构建灵活且可扩展的系统需要兼容且高效的计算框架和工具。现代 RL 管道已超越基础的训练循环，现大量依赖于分布式演练、高吞吐量推理，以及 CPU 和 GPU 资源的协调使用。

包括 TorchForge 和 Monarch 在内的综合 PyTorch 堆栈现在可以在 Together Instant Clusters 上进行分布式训练。这些集群提供：

低延迟 GPU 通信： 利用 InfiniBand/NVLink 拓扑结构，实现高效的 RDMA 数据传输和分布式 actor 消息传递。
一致的集群引导： 预配置了驱动程序、NCCL、CUDA 和 GPU 操作员，使 PyTorch 分布式任务无需手动设置即可运行。
异构 RL 工作负载调度： 针对策略副本和训练器优化的 GPU 节点，以及针对环境和工具执行优化的 CPU 节点。

Together AI 的集群非常适合需要结合 GPU 绑定模型计算和 CPU 绑定环境工作负载的 RL 框架。

高级工具集成和演示

大量 RL 工作负载涉及执行工具、运行代码或与沙箱环境交互。Together AI 的平台通过以下方式原生支持这些需求：

Together CodeSandbox： 微型虚拟机环境，专为工具使用、编码任务和模拟量身定制。
Together Code Interpreter： 提供快速、隔离的 Python 执行，适用于基于单元测试的奖励函数或代码评估任务。

CodeSandbox 和 Code Interpreter 皆可与 OpenEnv 和 TorchForge 环境服务集成，使演练工作者能够在训练期间使用这些工具。

BlackJack 训练演示

Together AI 已发布在其即时集群上运行 TorchForge RL 管道的演示，与托管在 Together CodeSandbox 上的 OpenEnv 环境交互。这个演示，改编自 Meta 的参考实现，使用 GRPO 训练 Qwen 1.5B 模型来玩 BlackJack。RL 管道集成了一个 vLLM 策略服务器、BlackJack 环境、参考模型、离策略重放缓冲区和一个通过 Monarch 的 actor mesh 连接的 TorchTitan 训练器，并使用 TorchStore 进行权重同步。

OpenEnv GRPO BlackJack 仓库包括 Kubernetes 清单和设置脚本。部署和训练启动通过简单的 kubectl 命令得以简化，允许对模型配置和 GRPO 超参数进行实验。

此外，一个独立的集成将 Together 的 Code Interpreter 封装为 OpenEnv 环境，使 RL 代理能够像对待其他环境一样与 Interpreter 进行交互。此集成允许 RL 管道应用于各种任务，如编码和数学推理。

这些演示表明，可以轻松地在 Together AI Cloud 上进行复杂的多组件 RL 训练，为 PyTorch 生态系统中的灵活开放 RL 框架奠定基础，并可在 Together AI Cloud 上扩展。

Image source: Shutterstock

Bookmark

TorchForge RL 管道现已在 Together AI 的云端可操作

AI 原生云：下一代 RL 的基础

高级工具集成和演示

BlackJack 训练演示

Premium Sponsors

Flash News