关于 PPO 的快讯列表
| 时间 | 详情 | 
|---|---|
| 2025-10-28 16:12 | 
                                        
                                            吴恩达发布DeepLearning.AI五模块LLM后训练课程:涵盖RLHF、PPO、GRPO、LoRA与评测,面向生产级模型
                                        
                                         根据Andrew Ng的信息,DeepLearning.AI发布了由AMD人工智能副总裁Sharon Zhou授课的五模块LLM后训练课程,现已上线;来源:Andrew Ng在X平台。 据DeepLearning.AI课程页面,课程涵盖监督微调、奖励建模、RLHF、PPO、GRPO、LoRA以及部署前后评测设计;来源:DeepLearning.AI课程页面。 据Andrew Ng所述,后训练是前沿实验室将基础LLM变成可指令、可靠助手的关键技术,并能把仅约80%成功率的演示级系统提升为稳定一致的表现;来源:Andrew Ng在X平台。 据DeepLearning.AI课程页面,学习者将掌握利用RLHF对齐行为、用LoRA高效微调而无需重新训练整模型、准备数据集与合成数据、以及以进退关卡与反馈回路运营LLM生产流水线的技能;来源:DeepLearning.AI课程页面。 | 
| 2025-10-28 15:59 | 
                                        
                                            DeepLearning.AI 联合 AMD 推出5模块LLM后训练课程:涵盖RLHF、PPO、LoRA,面向AI股票与AI加密交易要点
                                        
                                         根据 @DeepLearningAI,DeepLearning.AI 发布一门与 AMD 合作、由 Sharon Zhou 授课的五模块LLM后训练课程,内容涵盖后训练在LLM生命周期中的位置、RLHF与奖励建模、PPO与GRPO、LoRA、评测设计、奖励黑客检测、红队对抗、数据集准备与合成数据、以及包含上线放行决策与反馈回路的生产部署流程(来源:@DeepLearningAI,2025年10月28日)。根据 @DeepLearningAI,该课程目标是将预训练LLM打造成开发者Copilot、客服代理与AI助手背后的可靠系统(来源:@DeepLearningAI,2025年10月28日)。根据 @DeepLearningAI,公告明确AMD为官方合作方,这一确认的企业参与信息为交易者跟踪AI基础设施领域提供参考(来源:@DeepLearningAI,2025年10月28日)。 | 
| 2025-02-04 03:57 | 
                                        
                                            强化学习在Llama 2基础模型中的应用分析
                                        
                                         根据@rosstaylor90的说法,强化学习(RL)技术如PPO已成功应用于Llama 2基础模型,在GSM8k上实现了超过90%的准确率,并具有可验证的奖励。这突显出RL在提高模型性能方面的有效性,对于考虑AI支持的交易策略的交易者来说是一个关键见解。 |