AI 快讯列表关于 监督微调
| 时间 | 详情 |
|---|---|
|
2026-03-29 15:05 |
Nanochat 实验性突破:维多时期语料训练的小型 LLM“Mr. Chatterbox”与两轮SFT的实战分析及商业机会
据 emollick 在 X 平台披露,结合 RyanMorey 的补充信息,创作者使用 Andrej Karpathy 的 Nanochat 从零训练并微调小型模型“Mr. Chatterbox”,语料来自维多时期(1837–1899)图书,基于 BL Books 数据集子集,并进行两轮监督微调以提升风格一致性与安全性(来源:Ethan Mollick 于 X;Ryan Morey 于 X;Nanochat GitHub 讨论)。据 RyanMorey 介绍,第一轮 SFT 为两个 epoch、覆盖4万余条语料与合成数据,第二轮聚焦现代问候、告别与提示注入防御等特例,体现小模型在特定风格对齐与安全护栏上的可行路径(来源:Ryan Morey 于 X;Nanochat GitHub 讨论)。据 Ethan Mollick 报道,该流程为企业构建品牌语气助手与历史风格客服提供低成本方案,适用于出版、博物馆、教育与文旅等垂直领域,并可通过合成数据与针对性 SFT 优化上线效率(来源:Ethan Mollick 于 X)。 |
|
2025-10-06 21:27 |
LLM后训练课程推荐:掌握SFT、DPO与在线强化学习实现AI模型定制
根据DeepLearningAI官方发布,'LLM后训练'课程专为希望定制大语言模型的AI从业者设计,系统讲解了监督微调(SFT)、直接偏好优化(DPO)及在线强化学习(RL)三大主流方法(来源:DeepLearningAI,Twitter)。课程内容涵盖不同方法的应用场景、数据整理实操及代码实现,帮助企业和开发者高效优化模型行为,提升AI在实际业务中的竞争力与落地能力。对于希望通过生成式AI获得业务突破的公司具有重要参考价值。 |
|
2025-08-27 20:34 |
AI模型训练进化:从互联网文本预训练到人工标注对话微调
据Andrej Karpathy在Twitter上表示,AI模型训练的重点已从早期依赖大规模多样化优质互联网文本的预训练,转向以人工标注问答为主的监督微调阶段(来源:Andrej Karpathy,Twitter)。当前,人工合成和高质量对话数据成为提升大语言模型性能的关键,这为AI行业带来了数据采集、标注和管理的新商机。企业可通过构建高质量对话数据集,在生成式AI市场中实现差异化竞争。 |