计算最优训练 快讯列表

快讯列表

关于计算最优训练的快讯列表

时间	详情
2026-01-07 23:01	Karpathy发布nanochat缩放定律结果：8张H100约100美元实现计算最优训练，CORE分数对标GPT-2/3 据@karpathy，nanochat首个miniseries v1在固定FLOPs下跨模型规模实现计算最优训练，端到端流程与脚本已开源可复现。来源：@karpathy在X 2026年1月7日；nanochat GitHub讨论#420 他称nanochat复现了类似Chinchilla的缩放规律，参数与数据的指数均接近0.5，并给出计算无关的常数约为8个token/参数，而Chinchilla报告为20。来源：@karpathy在X 2026年1月7日；Hoffmann等人2022年Chinchilla 该系列从d10到d20，在单个8卡H100节点、无需梯度累积的条件下实现了约2^19（约50万）的批量，训练曲线互不相交。来源：@karpathy在X 2026年1月7日他使用CORE分数将nanochat与GPT-2和估算的GPT-3进行客观对齐对标。来源：@karpathy在X 2026年1月7日；DCLM论文（CORE分数）整套实验成本约100美元，约4小时8张H100完成，全部调参与代码已推送至master，可用scaling_laws.sh与miniseries.sh复现。来源：@karpathy在X 2026年1月7日；nanochat GitHub讨论#420 据此可推算出本次运行的H100单卡小时成本约3.1美元，为AI工作负载的算力定价提供参考。来源：基于@karpathy在X 2026年1月7日的计算对加密市场而言，去中心化GPU网络以算力/GPU时长为核心定价或撮合，使上述成本与缩放基准对其工作负载定价和基准评测直接相关，例如Render Network（RNDR）与Akash Network（AKT）。来源：Render Network官方文档；Akash Network官方文档来源

时间

详情

2026-01-07
23:01

Karpathy发布nanochat缩放定律结果：8张H100约100美元实现计算最优训练，CORE分数对标GPT-2/3

据@karpathy，nanochat首个miniseries v1在固定FLOPs下跨模型规模实现计算最优训练，端到端流程与脚本已开源可复现。来源：@karpathy在X 2026年1月7日；nanochat GitHub讨论#420 他称nanochat复现了类似Chinchilla的缩放规律，参数与数据的指数均接近0.5，并给出计算无关的常数约为8个token/参数，而Chinchilla报告为20。来源：@karpathy在X 2026年1月7日；Hoffmann等人2022年Chinchilla 该系列从d10到d20，在单个8卡H100节点、无需梯度累积的条件下实现了约2^19（约50万）的批量，训练曲线互不相交。来源：@karpathy在X 2026年1月7日他使用CORE分数将nanochat与GPT-2和估算的GPT-3进行客观对齐对标。来源：@karpathy在X 2026年1月7日；DCLM论文（CORE分数）整套实验成本约100美元，约4小时8张H100完成，全部调参与代码已推送至master，可用scaling_laws.sh与miniseries.sh复现。来源：@karpathy在X 2026年1月7日；nanochat GitHub讨论#420 据此可推算出本次运行的H100单卡小时成本约3.1美元，为AI工作负载的算力定价提供参考。来源：基于@karpathy在X 2026年1月7日的计算对加密市场而言，去中心化GPU网络以算力/GPU时长为核心定价或撮合，使上述成本与缩放基准对其工作负载定价和基准评测直接相关，例如Render Network（RNDR）与Akash Network（AKT）。来源：Render Network官方文档；Akash Network官方文档

来源

关于 计算最优训练 的快讯列表

关于计算最优训练的快讯列表