SFT微调 AI快讯列表

AI 快讯列表

AI 快讯列表关于 SFT微调

时间	详情
2025-10-24 15:35	Nanochat d32如何通过SpellingBee合成任务和SFT/RL微调实现AI新能力据@karpathy透露，通过引入名为SpellingBee的合成任务，nanochat d32语言模型成功学会了统计像“strawberry”这种单词中“r”字母的出现次数（来源：github.com/karpathy/nanochat/discussions/164）。此过程结合了多样化用户查询、理想助手响应的生成，以及监督微调（SFT）和强化学习（RL）训练，有效赋能了小型AI模型。特别强调了小模型在提示多样性、分词处理和推理步骤分解等方面的细节优化。该实践展示了轻量级LLM如何快速扩展技能，为定制AI任务和行业应用带来新机遇（来源：@karpathy Twitter）。原文链接

时间

详情

2025-10-24
15:35

Nanochat d32如何通过SpellingBee合成任务和SFT/RL微调实现AI新能力

据@karpathy透露，通过引入名为SpellingBee的合成任务，nanochat d32语言模型成功学会了统计像“strawberry”这种单词中“r”字母的出现次数（来源：github.com/karpathy/nanochat/discussions/164）。此过程结合了多样化用户查询、理想助手响应的生成，以及监督微调（SFT）和强化学习（RL）训练，有效赋能了小型AI模型。特别强调了小模型在提示多样性、分词处理和推理步骤分解等方面的细节优化。该实践展示了轻量级LLM如何快速扩展技能，为定制AI任务和行业应用带来新机遇（来源：@karpathy Twitter）。

原文链接