快讯列表

关于 开源LLM 的快讯列表

时间 详情
2025-10-24
15:35
Karpathy发布 SpellingBee 教程:用 SFT 与 RL 为 nanochat d32 增强字母计数能力,或引发 AI 代币关注

据 @karpathy 介绍,他发布了完整教程,通过合成任务 SpellingBee 生成用户与助手示例,对 nanochat d32 进行中期训练与监督微调,并可选用强化学习提升鲁棒性,从而学会统计单词中某字母的次数,例如 strawberry 中的 r,来源:Karpathy 于 2025-10-24 的 X 帖子;GitHub nanochat 讨论 164。方法要点包括:多样化用户提问、严格处理分词与空白、将推理拆分为多 token 步骤(标准化引号、拼写拆分、显式计数迭代),并同时鼓励手动推理与 Python 工具两条解题路径,来源:Karpathy 于 2025-10-24 的 X 帖子;GitHub nanochat 讨论 164。Karpathy 指出,由于 nanochat d32 体量小,需要在数据集中过采样该能力以促成学习,并可通过模拟错误样例或强化学习进一步增强稳定性,来源:Karpathy 于 2025-10-24 的 X 帖子;GitHub nanochat 讨论 164。对交易者而言,开源小模型训练方法的进展曾与 AI 概念关注度提升相伴,AI 代币如 RNDR、FET、AGIX 在英伟达等重大 AI 催化附近有过阶段性联动表现,Kaiko 在 2024 年报告过 AI 代币在英伟达财报期间的上涨,来源:Kaiko Research 2024 周报;英伟达 2024 年财报资料。本文并非代币或产品发布,而是面向小模型能力注入的技术指南与数据示例,来源:Karpathy 于 2025-10-24 的 X 帖子;GitHub nanochat 讨论 164。

来源