快讯列表

关于 LLM后训练 的快讯列表

时间 详情
2025-10-28
16:12
吴恩达发布DeepLearning.AI五模块LLM后训练课程:涵盖RLHF、PPO、GRPO、LoRA与评测,面向生产级模型

根据Andrew Ng的信息,DeepLearning.AI发布了由AMD人工智能副总裁Sharon Zhou授课的五模块LLM后训练课程,现已上线;来源:Andrew Ng在X平台。 据DeepLearning.AI课程页面,课程涵盖监督微调、奖励建模、RLHF、PPO、GRPO、LoRA以及部署前后评测设计;来源:DeepLearning.AI课程页面。 据Andrew Ng所述,后训练是前沿实验室将基础LLM变成可指令、可靠助手的关键技术,并能把仅约80%成功率的演示级系统提升为稳定一致的表现;来源:Andrew Ng在X平台。 据DeepLearning.AI课程页面,学习者将掌握利用RLHF对齐行为、用LoRA高效微调而无需重新训练整模型、准备数据集与合成数据、以及以进退关卡与反馈回路运营LLM生产流水线的技能;来源:DeepLearning.AI课程页面。

来源