IFBench AI快讯列表

AI 快讯列表

AI 快讯列表关于 IFBench

时间	详情
2026-04-18 00:56	GDPval AA评测遭质疑：Ethan Mollick批评Gemini 3.1裁判机制与Artificial Analysis排名据@emollick表示，GDPval-AA并不可靠，因为其以Gemini 3.1作为裁判评估公开题库上的模型输出，难以反映真实能力。根据Artificial Analysis披露，Claude Opus 4.7在GDPval-AA上以1753 Elo领跑，并以57.3位列Artificial Analysis Intelligence Index首位，略高于Gemini 3.1 Pro的57.2与GPT-5.4的56.8；该机构称GDPval-AA覆盖44个职业与9个行业，并通过Stirrup开源代理框架启用Shell与浏览能力进行回路式任务。另据Artificial Analysis，Opus 4.7在IFBench、TerminalBench Hard、HLE、SciCode与GPQA Diamond上均有小幅提升，幻觉率降至36%，运行整套评测所用输出token约比Opus 4.6减少35%。对企业而言，这场关于评测裁判设计的争议表明需采用多元基准（如HLE、GPQA Diamond、TerminalBench、AA-Omniscience）并审计评测对裁判模型的依赖，以降低评测偏差与过拟合风险。原文链接

时间

详情

2026-04-18
00:56

GDPval AA评测遭质疑：Ethan Mollick批评Gemini 3.1裁判机制与Artificial Analysis排名

据@emollick表示，GDPval-AA并不可靠，因为其以Gemini 3.1作为裁判评估公开题库上的模型输出，难以反映真实能力。根据Artificial Analysis披露，Claude Opus 4.7在GDPval-AA上以1753 Elo领跑，并以57.3位列Artificial Analysis Intelligence Index首位，略高于Gemini 3.1 Pro的57.2与GPT-5.4的56.8；该机构称GDPval-AA覆盖44个职业与9个行业，并通过Stirrup开源代理框架启用Shell与浏览能力进行回路式任务。另据Artificial Analysis，Opus 4.7在IFBench、TerminalBench Hard、HLE、SciCode与GPQA Diamond上均有小幅提升，幻觉率降至36%，运行整套评测所用输出token约比Opus 4.6减少35%。对企业而言，这场关于评测裁判设计的争议表明需采用多元基准（如HLE、GPQA Diamond、TerminalBench、AA-Omniscience）并审计评测对裁判模型的依赖，以降低评测偏差与过拟合风险。

原文链接