GRPO AI快讯列表 | Blockchain.News
AI 快讯列表

AI 快讯列表关于 GRPO

时间 详情
2026-04-21
00:35
OpenMythos最新进展:循环Transformer与MoE重构Claude Mythos,验证步数较nanoGPT快2.67倍

据Kye Gomez(@KyeGomezB)在X平台透露,OpenMythos是对Claude Mythos的开源理论重构,采用循环式Transformer与Mixture-of-Experts路由,通过权重共享与稀疏专家激活实现迭代深度,旨在提升效率与多步推理能力(来源:X/Twitter)。据Kye Gomez称,社区小规模训练显示,OpenMythos达到最佳验证所需步数比nanoGPT少2.67倍,早期迹象表明其收敛更快(来源:X/Twitter)。据Kye Gomez介绍,团队正在Hugging Face上使用FineWeb-Edu预训练3B(并探索5B)模型,后续将以GRPO与高质量强化学习数据集进行微调,代码与训练脚本已在GitHub开源(来源:X/Twitter)。据Kye Gomez表示,该项目仍处早期研究阶段,欢迎社区协作以评估循环Transformer与MoE在推理性能和效率权衡上的业务潜力(来源:X/Twitter)。

2025-06-13
22:14
深度学习AI直播AMA:GRPO强化微调LLM实用方法与商业机会解析

根据DeepLearning.AI官方推特消息,'利用GRPO强化微调大语言模型'课程的讲师将举办线上AMA,深入讲解强化学习微调在大语言模型(LLM)中的实际应用。此次活动将重点介绍如何通过通用奖励策略优化(GRPO)提升LLM性能、提高模型响应准确性,并针对企业特定需求进行优化。对于关注AI定制化解决方案的企业和开发者,这次AMA是了解强化微调前沿技术与行业落地机会的重要机会,尤其适用于金融、医疗和客户服务等行业(来源:DeepLearning.AI官方推特,2025年6月13日)。

2025-05-21
16:30
DeepLearning.AI推出GRPO强化微调LLM新课程:提升大语言模型推理能力

根据DeepLearning.AI官方消息,最新推出的“使用GRPO强化微调LLM”短课程,系统介绍了如何通过GRPO(广义强化策略优化)方法对大语言模型进行高效微调,从而提升其在数学题解答、代码生成、Wordle等复杂推理任务中的表现。该课程强调无需大规模数据集即可实现模型推理能力的优化,解决了AI行业在高效推理领域的关键难题。掌握GRPO强化学习方法将为企业和开发者带来开发专业AI推理解决方案的新商机。信息来源:DeepLearning.AI,Twitter,2025年5月21日。