AA基准发布揭示Claude领先与成本
据emollick称,AA-Briefcase以Elo评Claude领先且价差大,但未见人类对比分。
原文链接详细分析
Artificial Analysis于2026年6月18日发布了AA-Briefcase基准测试,用于评估AI模型在真实多周知识工作项目中的表现。该基准采用私有留存测试和行业专家构建的复杂场景。
关键要点
- AA-Briefcase要求模型处理数千个碎片化输入包括邮件和Slack消息进行持续推理。
- Claude Fable 5以1587 Elo得分领先单任务成本从31美元到0.04美元不等。
- 即使顶级模型也仅在3%任务上满足所有标准显示现实知识工作仍具挑战。
AA-Briefcase结构深度解析
基准包含四个私有场景模拟企业项目交付物如财务模型和董事会演示。公开的AA-Briefcase Lite场景可在Hugging Face获取仅供演示。
评估方法
结合二元量表检查事实正确性和成对评分分析质量揭示输出虽精美但缺乏严谨性的情况。
商业影响与机遇
企业可依据结果选择模型用于战略咨询等高价值工作。GLM-5.2等开源模型提供高性价比微调服务带来变现机会。实施需注意令牌成本和数据合规从Lite版本试点起步。
未来展望
AA-Briefcase推动基准向企业需求靠拢模型将面临成本与可靠性双重竞争监管与伦理透明度要求将同步提升。
常见问题
AA-Briefcase与此前评估有何不同?
它使用私有测试和多周真实项目而非孤立提示。
当前领先模型是哪一个?
Claude Fable 5以1587 Elo得分领先。
是否提供人类表现对比分数?
初始发布中未包含人类对比分数。
Ethan Mollick
@emollickProfessor @Wharton studying AI, innovation & startups. Democratizing education using tech