低成本大语言模型 AI快讯列表

低成本大语言模型 AI快讯列表 | Blockchain.News

AI 快讯列表

AI 快讯列表关于低成本大语言模型

时间	详情
2025-10-16 00:14	NanoChat d32低成本大语言模型训练突破0.31 CORE分数，超越GPT-2表现根据Andrej Karpathy的消息，NanoChat d32版本（32层深度、训练成本1000美元）在约33小时内完成训练，在AI评测指标上取得显著提升。模型的CORE分数达到0.31，超过了GPT-2的0.26，GSM8K准确率也从约8%提升至20%。在预训练、监督微调和强化学习阶段，各项指标均有明显上升（来源：Karpathy推特、NanoChat GitHub）。Karpathy提醒用户，微型大语言模型的能力受限，应合理预期。该模型和训练脚本已开源，AI初创公司和研究人员可借此探索低预算LLM训练方案，在小众应用场景下实现快速原型开发和低成本部署，为AI行业带来新的商业机会。原文链接

时间

详情

2025-10-16
00:14

NanoChat d32低成本大语言模型训练突破0.31 CORE分数，超越GPT-2表现

根据Andrej Karpathy的消息，NanoChat d32版本（32层深度、训练成本1000美元）在约33小时内完成训练，在AI评测指标上取得显著提升。模型的CORE分数达到0.31，超过了GPT-2的0.26，GSM8K准确率也从约8%提升至20%。在预训练、监督微调和强化学习阶段，各项指标均有明显上升（来源：Karpathy推特、NanoChat GitHub）。Karpathy提醒用户，微型大语言模型的能力受限，应合理预期。该模型和训练脚本已开源，AI初创公司和研究人员可借此探索低预算LLM训练方案，在小众应用场景下实现快速原型开发和低成本部署，为AI行业带来新的商业机会。

原文链接

AI 快讯列表关于 低成本大语言模型

AI 快讯列表关于低成本大语言模型