IFBench AI快讯列表 | Blockchain.News
AI 快讯列表

AI 快讯列表关于 IFBench

时间 详情
2026-04-18
00:56
GDPval AA评测遭质疑:Ethan Mollick批评Gemini 3.1裁判机制与Artificial Analysis排名

据@emollick表示,GDPval-AA并不可靠,因为其以Gemini 3.1作为裁判评估公开题库上的模型输出,难以反映真实能力。根据Artificial Analysis披露,Claude Opus 4.7在GDPval-AA上以1753 Elo领跑,并以57.3位列Artificial Analysis Intelligence Index首位,略高于Gemini 3.1 Pro的57.2与GPT-5.4的56.8;该机构称GDPval-AA覆盖44个职业与9个行业,并通过Stirrup开源代理框架启用Shell与浏览能力进行回路式任务。另据Artificial Analysis,Opus 4.7在IFBench、TerminalBench Hard、HLE、SciCode与GPQA Diamond上均有小幅提升,幻觉率降至36%,运行整套评测所用输出token约比Opus 4.6减少35%。对企业而言,这场关于评测裁判设计的争议表明需采用多元基准(如HLE、GPQA Diamond、TerminalBench、AA-Omniscience)并审计评测对裁判模型的依赖,以降低评测偏差与过拟合风险。