GDPval AA评测遭质疑：Ethan Mollick批评Gemini 3.1裁判机制与Artificial Analysis排名

据@emollick表示，GDPval-AA并不可靠，因为其以Gemini 3.1作为裁判评估公开题库上的模型输出，难以反映真实能力。根据Artificial Analysis披露，Claude Opus 4.7在GDPval-AA上以1753 Elo领跑，并以57.3位列Artificial Analysis Intelligence Index首位，略高于Gemini 3.1 Pro的57.2与GPT-5.4的56.8；该机构称GDPval-AA覆盖44个职业与9个行业，并通过Stirrup开源代理框架启用Shell与浏览能力进行回路式任务。另据Artificial Analysis，Opus 4.7在IFBench、TerminalBench Hard、HLE、SciCode与GPQA Diamond上均有小幅提升，幻觉率降至36%，运行整套评测所用输出token约比Opus 4.6减少35%。对企业而言，这场关于评测裁判设计的争议表明需采用多元基准（如HLE、GPQA Diamond、TerminalBench、AA-Omniscience）并审计评测对裁判模型的依赖，以降低评测偏差与过拟合风险。

原文链接

详细分析

Anthropic最近发布的Claude Opus 4.7模型在AI基准测试中表现出色，尤其在代理能力与效率方面，根据Artificial Analysis的2026年4月报告，该模型在Intelligence Index上得分57，与OpenAI的GPT-5.4和Google的Gemini 3.1 Pro并列首位。精确分数分别为57.3、56.8和57.2，在95%置信区间内。该模型在GDPval-AA基准中领先，Elo评分为1753，超越前代和竞争对手。然而，AI专家Ethan Mollick在2026年4月18日的Twitter帖子中批评GDPval-AA依赖Gemini 3.1判断其他模型的公共问题输出，可能无法提供真实洞见。尽管如此，Opus 4.7的幻觉率从Opus 4.6的61%降至36%，在AA-Omniscience Index上提升12分至26。新功能包括'xhigh'推理努力设置和任务预算公测，支持代理循环中的优先级管理。定价不变，每百万输入/输出token为5/25美元，上下文窗口1M token，使用输出token减少35%，从157M降至102M，同时得分更高。API更新移除扩展思考，转向自适应推理。

从商业角度看，Opus 4.7在GDPval-AA的领先（覆盖44种职业和9大行业，使用Stirrup开源框架的shell访问和网页浏览）为知识工作自动化带来机会。金融、医疗和法律行业可利用其多步推理和工具集成，降低成本。2026年4月数据显示，其领先GPT-5.4和Sonnet 4.6达79 Elo点，适用于客户服务和数据分析。全球AI市场预计到2030年达15.7万亿美元，Opus 4.7推动订阅API或企业解决方案的货币化。实施挑战包括数据隐私和偏见缓解，Anthropic通过伦理指南应对。竞争格局中，Anthropic挑战OpenAI在长时序编码和Google在科学推理的优势。

监管方面，2024年生效的欧盟AI法案要求高风险代理AI遵守透明标准。伦理含义包括通过更高弃权率（70% vs 82%）减少幻觉，促进可靠部署。未来，评估成本降11%至4406美元，预示成本效益AI趋势。到2027年，代理AI可能贡献知识部门20%生产力提升，前提是解决如Mollick批评的基准可靠性问题。实际应用包括软件开发（TerminalBench Hard提升5.3%）和科学研究（SciCode提升2.6%）。总体而言，此发布推动AI实用性，企业应投资培训以利用这些突破。

Claude Opus Gemini 3.1 GPQA GPT 5.4 IFBench

Ethan Mollick

@emollick

Professor @Wharton studying AI, innovation & startups. Democratizing education using tech

GDPval AA评测遭质疑：Ethan Mollick批评Gemini 3.1裁判机制与Artificial Analysis排名

详细分析

Ethan Mollick

Premium 赞助商

热门话题