关于 RLHF 的快讯列表
| 时间 | 详情 | 
|---|---|
| 2025-10-28 16:12 | 
                                        
                                            吴恩达发布DeepLearning.AI五模块LLM后训练课程:涵盖RLHF、PPO、GRPO、LoRA与评测,面向生产级模型
                                        
                                         根据Andrew Ng的信息,DeepLearning.AI发布了由AMD人工智能副总裁Sharon Zhou授课的五模块LLM后训练课程,现已上线;来源:Andrew Ng在X平台。 据DeepLearning.AI课程页面,课程涵盖监督微调、奖励建模、RLHF、PPO、GRPO、LoRA以及部署前后评测设计;来源:DeepLearning.AI课程页面。 据Andrew Ng所述,后训练是前沿实验室将基础LLM变成可指令、可靠助手的关键技术,并能把仅约80%成功率的演示级系统提升为稳定一致的表现;来源:Andrew Ng在X平台。 据DeepLearning.AI课程页面,学习者将掌握利用RLHF对齐行为、用LoRA高效微调而无需重新训练整模型、准备数据集与合成数据、以及以进退关卡与反馈回路运营LLM生产流水线的技能;来源:DeepLearning.AI课程页面。 | 
| 2025-10-28 15:59 | 
                                        
                                            DeepLearning.AI 联合 AMD 推出5模块LLM后训练课程:涵盖RLHF、PPO、LoRA,面向AI股票与AI加密交易要点
                                        
                                         根据 @DeepLearningAI,DeepLearning.AI 发布一门与 AMD 合作、由 Sharon Zhou 授课的五模块LLM后训练课程,内容涵盖后训练在LLM生命周期中的位置、RLHF与奖励建模、PPO与GRPO、LoRA、评测设计、奖励黑客检测、红队对抗、数据集准备与合成数据、以及包含上线放行决策与反馈回路的生产部署流程(来源:@DeepLearningAI,2025年10月28日)。根据 @DeepLearningAI,该课程目标是将预训练LLM打造成开发者Copilot、客服代理与AI助手背后的可靠系统(来源:@DeepLearningAI,2025年10月28日)。根据 @DeepLearningAI,公告明确AMD为官方合作方,这一确认的企业参与信息为交易者跟踪AI基础设施领域提供参考(来源:@DeepLearningAI,2025年10月28日)。 | 
| 2025-10-09 00:10 | 
                                        
                                            安德烈·卡帕西批评RLHF:LLM畏惧异常,呼吁在RL训练中重设奖励机制
                                        
                                         根据安德烈·卡帕西在2025年10月9日于Twitter发布的信息,他指出当前强化学习实践让LLM对异常产生过度恐惧,并强调异常是健康开发流程的正常组成部分。卡帕西号召签署其“LLM福利请愿”,以在出现异常时给予更合理的奖励设计。该帖未提及任何加密资产、代币或市场数据,来源未提供直接的市场更新。 |