AI评测指标 AI快讯列表 | Blockchain.News
AI 快讯列表

AI 快讯列表关于 AI评测指标

时间 详情
2025-12-07
12:56
协作式AI表现:直觉与团队合作胜过模板提示在GPT-4中的应用

根据推特用户God of Prompt的分析,最新研究显示,心智理论(ToM)可以预测与GPT-4等AI协作时的表现,但与个人独立完成任务的表现没有相关性(来源:@godofprompt, 2025年12月7日)。这意味着,成功运用AI工具依赖于与AI协作的直觉,而不仅仅是使用提示模板。那些将AI视为智慧协作者的人,能够预判误解、澄清语境并明确目标,因此获得远超他人的结果。对企业而言,应侧重培养员工的AI协作能力,而不是单纯追求MMLU等静态评分。数据显示,GPT-4o能提升人类表现29个百分点,Llama 3.1 8b可提升23个百分点,突显人机协同的商业价值。这一趋势为AI协作培训、咨询及工具开发带来新的市场机遇(来源:@godofprompt, 2025年12月7日)。

2025-10-16
00:14
NanoChat d32低成本大语言模型训练突破0.31 CORE分数,超越GPT-2表现

根据Andrej Karpathy的消息,NanoChat d32版本(32层深度、训练成本1000美元)在约33小时内完成训练,在AI评测指标上取得显著提升。模型的CORE分数达到0.31,超过了GPT-2的0.26,GSM8K准确率也从约8%提升至20%。在预训练、监督微调和强化学习阶段,各项指标均有明显上升(来源:Karpathy推特、NanoChat GitHub)。Karpathy提醒用户,微型大语言模型的能力受限,应合理预期。该模型和训练脚本已开源,AI初创公司和研究人员可借此探索低预算LLM训练方案,在小众应用场景下实现快速原型开发和低成本部署,为AI行业带来新的商业机会。