AI评测指标 AI快讯列表

predict.info — Premium Domain For Sale Domain only: USD 200,000. Prediction platform technology priced separately. predict.info

Inquire

AI 快讯列表

AI 快讯列表关于 AI评测指标

时间	详情
2025-12-07 12:56	协作式AI表现：直觉与团队合作胜过模板提示在GPT-4中的应用根据推特用户God of Prompt的分析，最新研究显示，心智理论（ToM）可以预测与GPT-4等AI协作时的表现，但与个人独立完成任务的表现没有相关性（来源：@godofprompt, 2025年12月7日）。这意味着，成功运用AI工具依赖于与AI协作的直觉，而不仅仅是使用提示模板。那些将AI视为智慧协作者的人，能够预判误解、澄清语境并明确目标，因此获得远超他人的结果。对企业而言，应侧重培养员工的AI协作能力，而不是单纯追求MMLU等静态评分。数据显示，GPT-4o能提升人类表现29个百分点，Llama 3.1 8b可提升23个百分点，突显人机协同的商业价值。这一趋势为AI协作培训、咨询及工具开发带来新的市场机遇（来源：@godofprompt, 2025年12月7日）。原文链接
2025-10-16 00:14	NanoChat d32低成本大语言模型训练突破0.31 CORE分数，超越GPT-2表现根据Andrej Karpathy的消息，NanoChat d32版本（32层深度、训练成本1000美元）在约33小时内完成训练，在AI评测指标上取得显著提升。模型的CORE分数达到0.31，超过了GPT-2的0.26，GSM8K准确率也从约8%提升至20%。在预训练、监督微调和强化学习阶段，各项指标均有明显上升（来源：Karpathy推特、NanoChat GitHub）。Karpathy提醒用户，微型大语言模型的能力受限，应合理预期。该模型和训练脚本已开源，AI初创公司和研究人员可借此探索低预算LLM训练方案，在小众应用场景下实现快速原型开发和低成本部署，为AI行业带来新的商业机会。原文链接

时间

详情

2025-12-07
12:56

协作式AI表现：直觉与团队合作胜过模板提示在GPT-4中的应用

根据推特用户God of Prompt的分析，最新研究显示，心智理论（ToM）可以预测与GPT-4等AI协作时的表现，但与个人独立完成任务的表现没有相关性（来源：@godofprompt, 2025年12月7日）。这意味着，成功运用AI工具依赖于与AI协作的直觉，而不仅仅是使用提示模板。那些将AI视为智慧协作者的人，能够预判误解、澄清语境并明确目标，因此获得远超他人的结果。对企业而言，应侧重培养员工的AI协作能力，而不是单纯追求MMLU等静态评分。数据显示，GPT-4o能提升人类表现29个百分点，Llama 3.1 8b可提升23个百分点，突显人机协同的商业价值。这一趋势为AI协作培训、咨询及工具开发带来新的市场机遇（来源：@godofprompt, 2025年12月7日）。

原文链接

2025-10-16
00:14

NanoChat d32低成本大语言模型训练突破0.31 CORE分数，超越GPT-2表现

根据Andrej Karpathy的消息，NanoChat d32版本（32层深度、训练成本1000美元）在约33小时内完成训练，在AI评测指标上取得显著提升。模型的CORE分数达到0.31，超过了GPT-2的0.26，GSM8K准确率也从约8%提升至20%。在预训练、监督微调和强化学习阶段，各项指标均有明显上升（来源：Karpathy推特、NanoChat GitHub）。Karpathy提醒用户，微型大语言模型的能力受限，应合理预期。该模型和训练脚本已开源，AI初创公司和研究人员可借此探索低预算LLM训练方案，在小众应用场景下实现快速原型开发和低成本部署，为AI行业带来新的商业机会。

原文链接