快讯列表

关于 nanochat 的快讯列表

时间 详情
2026-01-07
23:01
Karpathy发布nanochat缩放定律结果:8张H100约100美元实现计算最优训练,CORE分数对标GPT-2/3

据@karpathy,nanochat首个miniseries v1在固定FLOPs下跨模型规模实现计算最优训练,端到端流程与脚本已开源可复现。来源:@karpathy在X 2026年1月7日;nanochat GitHub讨论#420 他称nanochat复现了类似Chinchilla的缩放规律,参数与数据的指数均接近0.5,并给出计算无关的常数约为8个token/参数,而Chinchilla报告为20。来源:@karpathy在X 2026年1月7日;Hoffmann等人2022年Chinchilla 该系列从d10到d20,在单个8卡H100节点、无需梯度累积的条件下实现了约2^19(约50万)的批量,训练曲线互不相交。来源:@karpathy在X 2026年1月7日 他使用CORE分数将nanochat与GPT-2和估算的GPT-3进行客观对齐对标。来源:@karpathy在X 2026年1月7日;DCLM论文(CORE分数) 整套实验成本约100美元,约4小时8张H100完成,全部调参与代码已推送至master,可用scaling_laws.sh与miniseries.sh复现。来源:@karpathy在X 2026年1月7日;nanochat GitHub讨论#420 据此可推算出本次运行的H100单卡小时成本约3.1美元,为AI工作负载的算力定价提供参考。来源:基于@karpathy在X 2026年1月7日的计算 对加密市场而言,去中心化GPU网络以算力/GPU时长为核心定价或撮合,使上述成本与缩放基准对其工作负载定价和基准评测直接相关,例如Render Network(RNDR)与Akash Network(AKT)。来源:Render Network官方文档;Akash Network官方文档

来源
2025-10-13
15:16
Karpathy发布nanochat:用8x H100约4小时、约100美元训练ChatGPT式LLM,为交易者提供清晰GPU成本基准

据@karpathy表示,nanochat是一个从零构建的极简全栈管线,可通过一条脚本在云端GPU上训练并部署简单的ChatGPT式LLM,并在约4小时内通过网页端与模型对话,实现端到端训练与推理流程。来源:@karpathy。 他称该代码库约8,000行,涵盖Rust实现的分词器训练、在FineWeb上的预训练及CORE评估、基于SmolTalk与多选数据的中期训练与工具使用、SFT、基于GRPO在GSM8K上的可选强化学习,以及带KV缓存的推理引擎、Python工具、CLI与类ChatGPT网页端,并生成自动化报告卡。来源:@karpathy。 披露的成本与时长基准为:8卡H100约4小时成本约100美元、约41.6小时成本约1000美元;一个24小时、depth-30的示例可在MMLU取得40分段、ARC-Easy 70分段、GSM8K 20分段。来源:@karpathy。 据此推算,隐含的算力价格约为每H100小时约3.1美元(约100美元对应32个H100小时),较长训练下约为每H100小时约3.0美元(约1000美元对应332.8个H100小时),为交易者提供AI训练支出建模所需的GPU小时成本基准。来源:@karpathy。 他还表示约12小时即可在CORE指标上超过GPT-2,且随训练规模提升能力增强,将nanochat定位为透明的强基线方案、LLM101n的压轴项目并具备研究基座潜力。来源:@karpathy。 对于关注AI基础设施的加密市场参与者,这些成本与性能披露为评估面向开源LLM训练的中心化与去中心化GPU算力需求提供锚点。来源:@karpathy。

来源