AI 快讯列表关于 低成本大语言模型
| 时间 | 详情 | 
|---|---|
| 
                                        2025-10-16 00:14  | 
                            
                                 
                                    
                                        NanoChat d32低成本大语言模型训练突破0.31 CORE分数,超越GPT-2表现
                                    
                                     
                            根据Andrej Karpathy的消息,NanoChat d32版本(32层深度、训练成本1000美元)在约33小时内完成训练,在AI评测指标上取得显著提升。模型的CORE分数达到0.31,超过了GPT-2的0.26,GSM8K准确率也从约8%提升至20%。在预训练、监督微调和强化学习阶段,各项指标均有明显上升(来源:Karpathy推特、NanoChat GitHub)。Karpathy提醒用户,微型大语言模型的能力受限,应合理预期。该模型和训练脚本已开源,AI初创公司和研究人员可借此探索低预算LLM训练方案,在小众应用场景下实现快速原型开发和低成本部署,为AI行业带来新的商业机会。  |