GPQA AI快讯列表

时间	详情
2026-05-05 23:10	GPQA基准显示GPT 5.5 Instant跃升据emollick称，OpenAI免费GPT 5.5 Instant在GPQA达晚2025付费水平。原文链接
2026-04-19 05:01	基准分数真相：2024–2026 年GPQA高分与“泄露图表”乱象深度分析据 Ethan Mollick 在 X 平台表示，许多走红的模型“泄露”图表并未使用真实基准数据，尤其是 GPQA，近期模型准确率普遍超过 90%，但图片生成的榜单常缺乏数据校验（来源：Ethan Mollick，X，2026年4月19日）。据 Anthropic 与 OpenAI 的模型卡与研究说明，Claude 3.5 与 GPT4 系列在官方设定下的 GPQA 或 GPQA-diamond 得分接近或超过 90%，但具体数值受子集、提示词与评测流程影响（来源：Anthropic 模型卡，OpenAI 研究说明）。据 LMSYS 榜单与 EleutherAI 讨论，评测差异常由提示不一致、数据污染与子集选择造成，从而给营销式“排行榜”留下误导空间（来源：LMSYS Chatbot Arena 文档，EleutherAI 论坛）。对企业与投资方而言，应要求可复现评测（公开提示词、随机种子、污染检查与运行脚本）；在知识检索与研究助理等场景中，稳定的 GPQA 表现与更高任务完成率相关，因此应优先选择发布原始日志与复现实验的供应商（来源：Anthropic 评测文档，OpenAI 评测指南）。原文链接
2026-04-18 00:56	GDPval AA评测遭质疑：Ethan Mollick批评Gemini 3.1裁判机制与Artificial Analysis排名据@emollick表示，GDPval-AA并不可靠，因为其以Gemini 3.1作为裁判评估公开题库上的模型输出，难以反映真实能力。根据Artificial Analysis披露，Claude Opus 4.7在GDPval-AA上以1753 Elo领跑，并以57.3位列Artificial Analysis Intelligence Index首位，略高于Gemini 3.1 Pro的57.2与GPT-5.4的56.8；该机构称GDPval-AA覆盖44个职业与9个行业，并通过Stirrup开源代理框架启用Shell与浏览能力进行回路式任务。另据Artificial Analysis，Opus 4.7在IFBench、TerminalBench Hard、HLE、SciCode与GPQA Diamond上均有小幅提升，幻觉率降至36%，运行整套评测所用输出token约比Opus 4.6减少35%。对企业而言，这场关于评测裁判设计的争议表明需采用多元基准（如HLE、GPQA Diamond、TerminalBench、AA-Omniscience）并审计评测对裁判模型的依赖，以降低评测偏差与过拟合风险。原文链接
2026-04-14 23:44	Claude 3.7 基准分析：GPQA 每0.1版本增益揭示AI命名错配与版本水分根据 Ethan Mollick 在 X 的发文，基于估算的“每0.1版本GPQA增益”图表显示，Claude 3.7 的实际表现更接近 4.4 级别，凸显行业中以营销为导向的版本命名不一致问题（来源：Ethan Mollick 推文，2026年4月14日）。据其说明，由于厂商常跳版本号，该方法将GPQA提升归一化，结果显示Anthropic部分发布存在超常跃迁，导致跨厂商对比被版本名严重误导（来源：Ethan Mollick）。对企业而言，应以GPQA等标准化基准为主进行采购决策，建立基于基准增量与任务胜率的持续评测流程，而非依赖型号命名进行升级（来源：Ethan Mollick）。原文链接
2026-03-14 04:36	GPQA Diamond基准深度解读：OpenAI长期领先、Meta波动、xAI停滞与中国开源权重模型崛起据Ethan Mollick在Twitter上表示，长期使用的GPQA Diamond基准清晰展示了模型竞赛格局：OpenAI长期占优，Meta先升后降，xAI迅速追近后停滞，以及中国开源权重大模型的进入；据其帖子所示，这些变化集中反映在面向高难度推理问答的GPQA Diamond评测上。根据社区对GPQA基准的资料，GPQA Diamond以高难度问题衡量复杂推理能力，因而可作为企业评估复杂任务准确性的有效参照。基于Mollick的可视化，企业可据此优化模型采购与A/B评估流程、在性能波动中实施多供应商策略，并在合规与本地化部署场景中把握开源权重模型的落地机会。原文链接
2026-02-04 09:36	斯坦福2025年AI指数报告：最新基准分析显示模型进步迅速根据God of Prompt的消息，斯坦福2025年AI指数报告显示，AI模型在各项基准测试中的表现提升显著。报告指出，MMMU得分一年内跃升18.8个百分点，GPQA提升48.9分，SWE-bench增长67.3分。虽然这些数据彰显了AI模型能力的飞跃，但报告同时质疑这些进步是否是真实突破或可能存在数据泄漏。原文链接
2025-06-05 16:00	Gemini 2.5 Pro更新：AI编码、推理与基准测试性能全面提升根据Sundar Pichai在推特上的消息，Gemini 2.5 Pro更新现已开放预览版，并在AI编码、推理、科学与数学等能力上取得重大突破。该版本在AIDER Polyglot、GPQA和HLE等关键行业基准测试中表现更优，且在@lmarena_ai排行榜上较上一版本Elo分数提升24分（来源：Sundar Pichai，推特，2025年6月5日）。这些进步为企业在软件开发、科研与数据分析等领域应用先进AI创造了新商机。原文链接

2026-05-05
23:10

据emollick称，OpenAI免费GPT 5.5 Instant在GPQA达晚2025付费水平。

2026-04-19
05:01

基准分数真相：2024–2026 年GPQA高分与“泄露图表”乱象深度分析

据 Ethan Mollick 在 X 平台表示，许多走红的模型“泄露”图表并未使用真实基准数据，尤其是 GPQA，近期模型准确率普遍超过 90%，但图片生成的榜单常缺乏数据校验（来源：Ethan Mollick，X，2026年4月19日）。据 Anthropic 与 OpenAI 的模型卡与研究说明，Claude 3.5 与 GPT4 系列在官方设定下的 GPQA 或 GPQA-diamond 得分接近或超过 90%，但具体数值受子集、提示词与评测流程影响（来源：Anthropic 模型卡，OpenAI 研究说明）。据 LMSYS 榜单与 EleutherAI 讨论，评测差异常由提示不一致、数据污染与子集选择造成，从而给营销式“排行榜”留下误导空间（来源：LMSYS Chatbot Arena 文档，EleutherAI 论坛）。对企业与投资方而言，应要求可复现评测（公开提示词、随机种子、污染检查与运行脚本）；在知识检索与研究助理等场景中，稳定的 GPQA 表现与更高任务完成率相关，因此应优先选择发布原始日志与复现实验的供应商（来源：Anthropic 评测文档，OpenAI 评测指南）。

原文链接

2026-04-18
00:56

GDPval AA评测遭质疑：Ethan Mollick批评Gemini 3.1裁判机制与Artificial Analysis排名

据@emollick表示，GDPval-AA并不可靠，因为其以Gemini 3.1作为裁判评估公开题库上的模型输出，难以反映真实能力。根据Artificial Analysis披露，Claude Opus 4.7在GDPval-AA上以1753 Elo领跑，并以57.3位列Artificial Analysis Intelligence Index首位，略高于Gemini 3.1 Pro的57.2与GPT-5.4的56.8；该机构称GDPval-AA覆盖44个职业与9个行业，并通过Stirrup开源代理框架启用Shell与浏览能力进行回路式任务。另据Artificial Analysis，Opus 4.7在IFBench、TerminalBench Hard、HLE、SciCode与GPQA Diamond上均有小幅提升，幻觉率降至36%，运行整套评测所用输出token约比Opus 4.6减少35%。对企业而言，这场关于评测裁判设计的争议表明需采用多元基准（如HLE、GPQA Diamond、TerminalBench、AA-Omniscience）并审计评测对裁判模型的依赖，以降低评测偏差与过拟合风险。

原文链接

2026-04-14
23:44

Claude 3.7 基准分析：GPQA 每0.1版本增益揭示AI命名错配与版本水分

根据 Ethan Mollick 在 X 的发文，基于估算的“每0.1版本GPQA增益”图表显示，Claude 3.7 的实际表现更接近 4.4 级别，凸显行业中以营销为导向的版本命名不一致问题（来源：Ethan Mollick 推文，2026年4月14日）。据其说明，由于厂商常跳版本号，该方法将GPQA提升归一化，结果显示Anthropic部分发布存在超常跃迁，导致跨厂商对比被版本名严重误导（来源：Ethan Mollick）。对企业而言，应以GPQA等标准化基准为主进行采购决策，建立基于基准增量与任务胜率的持续评测流程，而非依赖型号命名进行升级（来源：Ethan Mollick）。

原文链接

2026-03-14
04:36

GPQA Diamond基准深度解读：OpenAI长期领先、Meta波动、xAI停滞与中国开源权重模型崛起

据Ethan Mollick在Twitter上表示，长期使用的GPQA Diamond基准清晰展示了模型竞赛格局：OpenAI长期占优，Meta先升后降，xAI迅速追近后停滞，以及中国开源权重大模型的进入；据其帖子所示，这些变化集中反映在面向高难度推理问答的GPQA Diamond评测上。根据社区对GPQA基准的资料，GPQA Diamond以高难度问题衡量复杂推理能力，因而可作为企业评估复杂任务准确性的有效参照。基于Mollick的可视化，企业可据此优化模型采购与A/B评估流程、在性能波动中实施多供应商策略，并在合规与本地化部署场景中把握开源权重模型的落地机会。

原文链接

2026-02-04
09:36

斯坦福2025年AI指数报告：最新基准分析显示模型进步迅速

根据God of Prompt的消息，斯坦福2025年AI指数报告显示，AI模型在各项基准测试中的表现提升显著。报告指出，MMMU得分一年内跃升18.8个百分点，GPQA提升48.9分，SWE-bench增长67.3分。虽然这些数据彰显了AI模型能力的飞跃，但报告同时质疑这些进步是否是真实突破或可能存在数据泄漏。

原文链接

2025-06-05
16:00

Gemini 2.5 Pro更新：AI编码、推理与基准测试性能全面提升

根据Sundar Pichai在推特上的消息，Gemini 2.5 Pro更新现已开放预览版，并在AI编码、推理、科学与数学等能力上取得重大突破。该版本在AIDER Polyglot、GPQA和HLE等关键行业基准测试中表现更优，且在@lmarena_ai排行榜上较上一版本Elo分数提升24分（来源：Sundar Pichai，推特，2025年6月5日）。这些进步为企业在软件开发、科研与数据分析等领域应用先进AI创造了新商机。

原文链接

AI 快讯列表关于 GPQA