AA基准发布揭示Claude领先与成本

据emollick称，AA-Briefcase以Elo评Claude领先且价差大，但未见人类对比分。

详细分析

Artificial Analysis于2026年6月18日发布了AA-Briefcase基准测试，用于评估AI模型在真实多周知识工作项目中的表现。该基准采用私有留存测试和行业专家构建的复杂场景。

基准包含四个私有场景模拟企业项目交付物如财务模型和董事会演示。公开的AA-Briefcase Lite场景可在Hugging Face获取仅供演示。

结合二元量表检查事实正确性和成对评分分析质量揭示输出虽精美但缺乏严谨性的情况。

企业可依据结果选择模型用于战略咨询等高价值工作。GLM-5.2等开源模型提供高性价比微调服务带来变现机会。实施需注意令牌成本和数据合规从Lite版本试点起步。

AA-Briefcase推动基准向企业需求靠拢模型将面临成本与可靠性双重竞争监管与伦理透明度要求将同步提升。

它使用私有测试和多周真实项目而非孤立提示。

Claude Fable 5以1587 Elo得分领先。

初始发布中未包含人类对比分数。

@emollick

Professor @Wharton studying AI, innovation & startups. Democratizing education using tech