开源LLM AI快讯列表 | Blockchain.News
AI 快讯列表

AI 快讯列表关于 开源LLM

时间 详情
2025-10-16
00:14
NanoChat d32低成本大语言模型训练突破0.31 CORE分数,超越GPT-2表现

根据Andrej Karpathy的消息,NanoChat d32版本(32层深度、训练成本1000美元)在约33小时内完成训练,在AI评测指标上取得显著提升。模型的CORE分数达到0.31,超过了GPT-2的0.26,GSM8K准确率也从约8%提升至20%。在预训练、监督微调和强化学习阶段,各项指标均有明显上升(来源:Karpathy推特、NanoChat GitHub)。Karpathy提醒用户,微型大语言模型的能力受限,应合理预期。该模型和训练脚本已开源,AI初创公司和研究人员可借此探索低预算LLM训练方案,在小众应用场景下实现快速原型开发和低成本部署,为AI行业带来新的商业机会。