关于 在线强化学习 的快讯列表
时间 | 详情 |
---|---|
2025-10-06 21:27 |
DeepLearning.AI 推出 LLM 后训练课程:SFT、DPO、在线强化学习三大核心方法助力模型定制
据 DeepLearning.AI 称,其 Post-training of LLMs 课程教授如何使用监督微调(SFT)、偏好直接优化(DPO)和在线强化学习(RL)来定制预训练大模型(来源:DeepLearning.AI 于 X 平台,2025年10月6日)。据 DeepLearning.AI 称,课程讲解何时采用各方法、如何整理训练数据,并在代码层面实现以有效塑造模型行为(来源:DeepLearning.AI 于 X 平台,2025年10月6日)。据 DeepLearning.AI 称,可通过链接 hubs.la/Q03MrTZS0 报名(来源:DeepLearning.AI 于 X 平台,2025年10月6日)。 |