开源LLM 快讯列表

快讯列表

关于开源LLM 的快讯列表

时间	详情
2025-10-24 15:35	Karpathy发布 SpellingBee 教程：用 SFT 与 RL 为 nanochat d32 增强字母计数能力，或引发 AI 代币关注据 @karpathy 介绍，他发布了完整教程，通过合成任务 SpellingBee 生成用户与助手示例，对 nanochat d32 进行中期训练与监督微调，并可选用强化学习提升鲁棒性，从而学会统计单词中某字母的次数，例如 strawberry 中的 r，来源：Karpathy 于 2025-10-24 的 X 帖子；GitHub nanochat 讨论 164。方法要点包括：多样化用户提问、严格处理分词与空白、将推理拆分为多 token 步骤（标准化引号、拼写拆分、显式计数迭代），并同时鼓励手动推理与 Python 工具两条解题路径，来源：Karpathy 于 2025-10-24 的 X 帖子；GitHub nanochat 讨论 164。Karpathy 指出，由于 nanochat d32 体量小，需要在数据集中过采样该能力以促成学习，并可通过模拟错误样例或强化学习进一步增强稳定性，来源：Karpathy 于 2025-10-24 的 X 帖子；GitHub nanochat 讨论 164。对交易者而言，开源小模型训练方法的进展曾与 AI 概念关注度提升相伴，AI 代币如 RNDR、FET、AGIX 在英伟达等重大 AI 催化附近有过阶段性联动表现，Kaiko 在 2024 年报告过 AI 代币在英伟达财报期间的上涨，来源：Kaiko Research 2024 周报；英伟达 2024 年财报资料。本文并非代币或产品发布，而是面向小模型能力注入的技术指南与数据示例，来源：Karpathy 于 2025-10-24 的 X 帖子；GitHub nanochat 讨论 164。来源

时间

详情

2025-10-24
15:35

Karpathy发布 SpellingBee 教程：用 SFT 与 RL 为 nanochat d32 增强字母计数能力，或引发 AI 代币关注

据 @karpathy 介绍，他发布了完整教程，通过合成任务 SpellingBee 生成用户与助手示例，对 nanochat d32 进行中期训练与监督微调，并可选用强化学习提升鲁棒性，从而学会统计单词中某字母的次数，例如 strawberry 中的 r，来源：Karpathy 于 2025-10-24 的 X 帖子；GitHub nanochat 讨论 164。方法要点包括：多样化用户提问、严格处理分词与空白、将推理拆分为多 token 步骤（标准化引号、拼写拆分、显式计数迭代），并同时鼓励手动推理与 Python 工具两条解题路径，来源：Karpathy 于 2025-10-24 的 X 帖子；GitHub nanochat 讨论 164。Karpathy 指出，由于 nanochat d32 体量小，需要在数据集中过采样该能力以促成学习，并可通过模拟错误样例或强化学习进一步增强稳定性，来源：Karpathy 于 2025-10-24 的 X 帖子；GitHub nanochat 讨论 164。对交易者而言，开源小模型训练方法的进展曾与 AI 概念关注度提升相伴，AI 代币如 RNDR、FET、AGIX 在英伟达等重大 AI 催化附近有过阶段性联动表现，Kaiko 在 2024 年报告过 AI 代币在英伟达财报期间的上涨，来源：Kaiko Research 2024 周报；英伟达 2024 年财报资料。本文并非代币或产品发布，而是面向小模型能力注入的技术指南与数据示例，来源：Karpathy 于 2025-10-24 的 X 帖子；GitHub nanochat 讨论 164。

来源

关于 开源LLM 的快讯列表

关于开源LLM 的快讯列表