GDPval AA评测遭质疑:Ethan Mollick批评Gemini 3.1裁判机制与Artificial Analysis排名
据@emollick表示,GDPval-AA并不可靠,因为其以Gemini 3.1作为裁判评估公开题库上的模型输出,难以反映真实能力。根据Artificial Analysis披露,Claude Opus 4.7在GDPval-AA上以1753 Elo领跑,并以57.3位列Artificial Analysis Intelligence Index首位,略高于Gemini 3.1 Pro的57.2与GPT-5.4的56.8;该机构称GDPval-AA覆盖44个职业与9个行业,并通过Stirrup开源代理框架启用Shell与浏览能力进行回路式任务。另据Artificial Analysis,Opus 4.7在IFBench、TerminalBench Hard、HLE、SciCode与GPQA Diamond上均有小幅提升,幻觉率降至36%,运行整套评测所用输出token约比Opus 4.6减少35%。对企业而言,这场关于评测裁判设计的争议表明需采用多元基准(如HLE、GPQA Diamond、TerminalBench、AA-Omniscience)并审计评测对裁判模型的依赖,以降低评测偏差与过拟合风险。
原文链接详细分析
Anthropic最近发布的Claude Opus 4.7模型在AI基准测试中表现出色,尤其在代理能力与效率方面,根据Artificial Analysis的2026年4月报告,该模型在Intelligence Index上得分57,与OpenAI的GPT-5.4和Google的Gemini 3.1 Pro并列首位。精确分数分别为57.3、56.8和57.2,在95%置信区间内。该模型在GDPval-AA基准中领先,Elo评分为1753,超越前代和竞争对手。然而,AI专家Ethan Mollick在2026年4月18日的Twitter帖子中批评GDPval-AA依赖Gemini 3.1判断其他模型的公共问题输出,可能无法提供真实洞见。尽管如此,Opus 4.7的幻觉率从Opus 4.6的61%降至36%,在AA-Omniscience Index上提升12分至26。新功能包括'xhigh'推理努力设置和任务预算公测,支持代理循环中的优先级管理。定价不变,每百万输入/输出token为5/25美元,上下文窗口1M token,使用输出token减少35%,从157M降至102M,同时得分更高。API更新移除扩展思考,转向自适应推理。
从商业角度看,Opus 4.7在GDPval-AA的领先(覆盖44种职业和9大行业,使用Stirrup开源框架的shell访问和网页浏览)为知识工作自动化带来机会。金融、医疗和法律行业可利用其多步推理和工具集成,降低成本。2026年4月数据显示,其领先GPT-5.4和Sonnet 4.6达79 Elo点,适用于客户服务和数据分析。全球AI市场预计到2030年达15.7万亿美元,Opus 4.7推动订阅API或企业解决方案的货币化。实施挑战包括数据隐私和偏见缓解,Anthropic通过伦理指南应对。竞争格局中,Anthropic挑战OpenAI在长时序编码和Google在科学推理的优势。
监管方面,2024年生效的欧盟AI法案要求高风险代理AI遵守透明标准。伦理含义包括通过更高弃权率(70% vs 82%)减少幻觉,促进可靠部署。未来,评估成本降11%至4406美元,预示成本效益AI趋势。到2027年,代理AI可能贡献知识部门20%生产力提升,前提是解决如Mollick批评的基准可靠性问题。实际应用包括软件开发(TerminalBench Hard提升5.3%)和科学研究(SciCode提升2.6%)。总体而言,此发布推动AI实用性,企业应投资培训以利用这些突破。
从商业角度看,Opus 4.7在GDPval-AA的领先(覆盖44种职业和9大行业,使用Stirrup开源框架的shell访问和网页浏览)为知识工作自动化带来机会。金融、医疗和法律行业可利用其多步推理和工具集成,降低成本。2026年4月数据显示,其领先GPT-5.4和Sonnet 4.6达79 Elo点,适用于客户服务和数据分析。全球AI市场预计到2030年达15.7万亿美元,Opus 4.7推动订阅API或企业解决方案的货币化。实施挑战包括数据隐私和偏见缓解,Anthropic通过伦理指南应对。竞争格局中,Anthropic挑战OpenAI在长时序编码和Google在科学推理的优势。
监管方面,2024年生效的欧盟AI法案要求高风险代理AI遵守透明标准。伦理含义包括通过更高弃权率(70% vs 82%)减少幻觉,促进可靠部署。未来,评估成本降11%至4406美元,预示成本效益AI趋势。到2027年,代理AI可能贡献知识部门20%生产力提升,前提是解决如Mollick批评的基准可靠性问题。实际应用包括软件开发(TerminalBench Hard提升5.3%)和科学研究(SciCode提升2.6%)。总体而言,此发布推动AI实用性,企业应投资培训以利用这些突破。
Ethan Mollick
@emollickProfessor @Wharton studying AI, innovation & startups. Democratizing education using tech