NVIDIA 的 ProRL v2 通过扩展训练推进 LLM 强化学习 - Blockchain.News

NVIDIA 的 ProRL v2 通过扩展训练推进 LLM 强化学习 - Blockchain.News

NVIDIA 的 ProRL v2 通过扩展训练推进 LLM 强化学习

NVIDIA 推出了 ProRL v2，这是强化学习 (RL) 领域的一项尖端进展，旨在提升大型语言模型 (LLMs) 的能力。该创新由 NVIDIA Research 开发，旨在测试延长的 RL 训练对 LLM 的影响，可能会将其能力扩展到常规限制之外。

ProRL v2 的创新

ProRL v2 代表了延长强化学习的最新演化，具有先进的算法和严格的正则化。该框架旨在探索 LLM 是否可以通过额外的成千上万个 RL 步骤获得可衡量的进展。与传统的 RL 技术相比，ProRL v2 使用链式思维提示和树搜索等技术，使模型能够更有效地利用现有知识。

核心特性和技术

ProRL v2 通过以下几个关键特性脱颖而出：

延长训练： 在五个领域内超过 3,000 个 RL 步骤，实现新的最先进性能。
稳定性和鲁棒性： 包含 KL 正则化信任区域和定期参考策略重置。
可验证的奖励： 每个奖励信号都以编程方式确定并可检查。
效率： 计划的余弦长度惩罚确保简明输出。

性能和发现

NVIDIA 对 ProRL v2 的实验得出了一些突破性结果：

最先进的性能： ProRL v2 3K 为 15 亿推理模型设定了新的标杆。
持续改进： 如 Pass@1 和 pass@k 等指标随着延长的 RL 步骤显示出持续的改进。
创造性解决方案： 输出显示与预训练数据的 N-gram 重叠减少，表明了真正的创新。
边界突破： ProRL 展现出即使在基模型先前失败的任务中也能取得高通过率的能力。

综合结果

ProRL v2 在包括数学和代码生成在内的各种基准测试中进行了评估，表现出显著的性能提升。即使在缩短训练上下文长度的情况下，模型的准确性也得到了提高，突显了 ProRL 方法的效率。

结论

ProRL v2 为推动 LLM 能力的边界提供了可复制的基础。它证明，延长的 RL 训练可以显著扩展模型的推理能力，为研究人员和实践者提供了实用的训练方法。随着 NVIDIA 不断改进和完善其模型，研究结果显示了强化学习在 AI 领域的光明前景。

欲了解更多信息，请访问 NVIDIA 博客。

Image source: Shutterstock