快讯列表

关于 GRPO 的快讯列表

时间 详情
2025-10-28
16:12
吴恩达发布DeepLearning.AI五模块LLM后训练课程:涵盖RLHF、PPO、GRPO、LoRA与评测,面向生产级模型

根据Andrew Ng的信息,DeepLearning.AI发布了由AMD人工智能副总裁Sharon Zhou授课的五模块LLM后训练课程,现已上线;来源:Andrew Ng在X平台。 据DeepLearning.AI课程页面,课程涵盖监督微调、奖励建模、RLHF、PPO、GRPO、LoRA以及部署前后评测设计;来源:DeepLearning.AI课程页面。 据Andrew Ng所述,后训练是前沿实验室将基础LLM变成可指令、可靠助手的关键技术,并能把仅约80%成功率的演示级系统提升为稳定一致的表现;来源:Andrew Ng在X平台。 据DeepLearning.AI课程页面,学习者将掌握利用RLHF对齐行为、用LoRA高效微调而无需重新训练整模型、准备数据集与合成数据、以及以进退关卡与反馈回路运营LLM生产流水线的技能;来源:DeepLearning.AI课程页面。

来源
2025-06-13
22:14
Reinforcement Fine-Tuning LLMs with GRPO 课程直播AMA:AI强化学习对加密货币市场的影响

根据DeepLearning.AI在Twitter发布的信息,“使用GRPO进行LLM强化微调”课程的讲师将举办一场直播AMA,深入探讨强化学习微调在大语言模型中的实际应用(来源:DeepLearning.AI,2025年6月13日)。随着越来越多AI技术被用于加密货币交易策略和区块链分析工具,本次AMA为加密货币投资者和交易者提供了了解AI强化学习对交易效率和DeFi平台影响的机会。

来源
2025-05-21
15:35
GRPO强化微调LLM新课程上线,推动AI与加密货币市场联动

据AndrewYNg报道,Predibase联合创始人TravisAddair与高级工程师grg_arnav开设了GRPO强化学习微调大语言模型(LLM)的新课程。该课程强调通过强化学习提升LLM性能,显示出AI优化持续进步。对于加密货币交易者而言,AI优化技术的普及有望影响专注于人工智能的加密项目及区块链应用,成为市场关注焦点(来源:AndrewYNg推特)。

来源