SWE基准 AI快讯列表

时间	详情
2026-07-09 23:45	TRACE助力Qwen3.6-27B拿下73.2% 据StanfordAILab称，TRACE让Qwen3.6-27B在SWE-bench Verified达73.2%。原文链接
2026-07-09 23:45	LLM评审器实现四项SOTA新高据StanfordAILab称，LLM评审器在四大基准达SOTA并提升RL效率。原文链接
2026-07-09 04:13	OpenAI基准洗牌引发2026分析据emollick称，OpenAI否定部分编码评测却未披露GPT5.6的GDPval。原文链接
2026-07-08 21:41	OpenAI审计SWE-Bench Pro曝缺陷据@OpenAI称，30%任务失效，撤回其作为领先编码评测的推荐。原文链接
2026-07-08 20:45	OpenAI审计SWE‑Bench Pro曝70%噪声据@OpenAI称，SWE‑Bench Pro噪声达约70%，不再可靠评估前沿编码能力。原文链接
2026-06-29 16:59	DeepSeek V4 Pro称雄SWE-bench但需工程化据@_avichawla称，榜单不等于实绩，工程化护航决定开源LLM实用表现。原文链接
2026-06-16 18:39	GLM5.2突破推出百万上下文登顶榜单据TheRundownAI称，GLM-5.2具百万上下文、MIT许可，并在多项基准与Designarena夺冠。原文链接
2026-06-16 18:37	GLM5.2发布 1M上下文与MIT授权据TheRundownAI称，ZAI推GLM-5.2，1M上下文，基准领先并以MIT开源权重。原文链接
2026-06-11 10:38	Claude Fable5 突破：SWE基准80.3% 据AINewsOfficial_称，Fable5获80.3%并配1M上下文与128k输出，支持多日自主执行。原文链接
2026-06-08 01:16	Claude Opus称霸长时任务指南据@bcherny称，Opus在长时任务领先；用自动权限、动态流程、目标循环、云端Code与端到端自校验。原文链接
2026-05-28 17:21	Claude Opus 4.8 提升编码准确至69.2 据@claudeai称，Opus 4.8在SWE-bench Pro达69.2，改进自检与诚实，价格与4.7相同。原文链接
2026-05-19 08:04	Claude Opus 4.7回归缺陷引争议据@godofprompt称，4.7忽视项目指令与MCP配置，Anthropic已承认回归，建议特定场景谨慎使用。原文链接
2026-05-11 08:38	Kimi K2.6以六分之一价颠覆Claude 据@_avichawla称，Kimi K2.6以更低价对标Claude，并在SWE-Bench Pro得分58.6。原文链接
2026-05-09 22:15	Claude Opus4.7性能飙升至87.6% 据@godofprompt称，Opus4.7严格执行指令，SWE-bench达87.6%。原文链接
2026-04-15 21:18	斯坦福2026 AI指数重磅分析：锯齿式智能、提示敏感性与头部模型性能趋同据X平台账号God of Prompt援引斯坦福《2026 AI Index》称，前沿模型在科学基准与竞赛数学上已超越博士水平，但在读模拟时钟任务上仅有50.1%正确率，体现斯坦福所称“锯齿式智能”，即能力高峰与盲点并存（据斯坦福AI Index 2026）。据该报告，Anthropic、谷歌、OpenAI、xAI、DeepSeek与阿里巴巴等头部模型差距显著缩小，Anthropic领先约2.7%，这意味着模型能力上限趋同，运营者的提示设计与问题定义将决定实际效果（据斯坦福AI Index 2026）。报告还指出基础模型透明度指数由58降至40，训练数据、参数规模与算力披露减少，企业需通过结构化测试与领域评测替代对厂商文档的依赖（据斯坦福AI Index 2026）。同时，全球生成式AI采用率在三年内达53%，88%组织在至少一项核心职能中使用AI；SWE-bench Verified从约60%提升至近乎完美，显示瓶颈转向操作与流程编排（据斯坦福AI Index 2026）。据该报告，美国消费者年度生成式AI价值达172亿美元级别，且人均价值中位数同比三倍增长，提示在提示工程、评测工具与工作流编排上的商业机会正快速扩大。原文链接
2026-04-09 18:28	Claude Sonnet 搭配 Opus 顾问在 SWE-bench 多语种提升2.7分且成本降11.9%：最新评测分析据 @claudeai 在推特公布的信息，Sonnet 与 Opus 顾问协作在 SWE-bench 多语种评测中比分单独 Sonnet 提高2.7个百分点，同时每个任务成本下降11.9%。据该推文报道，这种“顾问式”编排在多语代码生成与修复场景中实现了更高通过率与更低开销。对AI产品团队而言，该结果表明可采用“Sonnet主推理、Opus择机指导”的路由策略，在保持可控成本的同时提升多语言软件工程基准表现。原文链接
2026-02-27 12:10	MiniMax M2.5 超越 Opus 4.6：SWE‑Bench Verified 80.2%，速度提升3倍，每小时仅$1 的AI编码基准分析据 X 平台用户 God of Prompt 表示，MiniMax M2.5 在 SWE‑Bench Verified 基准上取得 80.2% 成绩，执行速度约快 3 倍，并以每小时 $1 的统一价格提供，同时仅启用 100 亿参数，被定位为最小的 Tier‑1 级编码模型。该来源称，这些指标带来更低时延与更优推理成本，使 24/7 持续运行的自主编码代理与持续集成机器人在预算内可行。基于同一来源的信息，高准确率与小激活参数量的组合提升效率与性价比，可为部署代码助手、测试修复机器人与维护代理的团队带来更高投资回报。原文链接
2026-02-02 16:46	Claude Sonnet 5对比Opus 4.5：最新泄露显示价格更低、速度更快与自主编码代理据Twitter用户@godofprompt透露，Vertex AI在错误日志中泄露了Claude Sonnet 5的最新信息。该模型据称比Opus 4.5便宜50%以上，并保持100万上下文窗口，同时运行速度更快。值得关注的是，Claude Sonnet 5支持通过终端生成并行子代理，并在SWE-bench基准测试中达到80.9%。最引人注目的功能是“开发团队模式”，用户仅需简要说明，即可由代理自主构建完整功能。尽管消息尚未证实，但若属实，将重塑AI编码代理市场，为企业自动化提供全新商机。原文链接

2026-07-09
23:45

TRACE助力Qwen3.6-27B拿下73.2%

据StanfordAILab称，TRACE让Qwen3.6-27B在SWE-bench Verified达73.2%。

原文链接

2026-07-09
23:45

LLM评审器实现四项SOTA新高

据StanfordAILab称，LLM评审器在四大基准达SOTA并提升RL效率。

原文链接

2026-07-09
04:13

OpenAI基准洗牌引发2026分析

据emollick称，OpenAI否定部分编码评测却未披露GPT5.6的GDPval。

原文链接

2026-07-08
21:41

OpenAI审计SWE-Bench Pro曝缺陷

据@OpenAI称，30%任务失效，撤回其作为领先编码评测的推荐。

原文链接

2026-07-08
20:45

OpenAI审计SWE‑Bench Pro曝70%噪声

据@OpenAI称，SWE‑Bench Pro噪声达约70%，不再可靠评估前沿编码能力。

原文链接

2026-06-29
16:59

DeepSeek V4 Pro称雄SWE-bench但需工程化

据@_avichawla称，榜单不等于实绩，工程化护航决定开源LLM实用表现。

原文链接

2026-06-16
18:39

GLM5.2突破推出百万上下文登顶榜单

据TheRundownAI称，GLM-5.2具百万上下文、MIT许可，并在多项基准与Designarena夺冠。

原文链接

2026-06-16
18:37

GLM5.2发布 1M上下文与MIT授权

据TheRundownAI称，ZAI推GLM-5.2，1M上下文，基准领先并以MIT开源权重。

原文链接

2026-06-11
10:38

Claude Fable5 突破：SWE基准80.3%

据AINewsOfficial_称，Fable5获80.3%并配1M上下文与128k输出，支持多日自主执行。

原文链接

2026-06-08
01:16

Claude Opus称霸长时任务指南

据@bcherny称，Opus在长时任务领先；用自动权限、动态流程、目标循环、云端Code与端到端自校验。

原文链接

2026-05-28
17:21

Claude Opus 4.8 提升编码准确至69.2

据@claudeai称，Opus 4.8在SWE-bench Pro达69.2，改进自检与诚实，价格与4.7相同。

原文链接

2026-05-19
08:04

Claude Opus 4.7回归缺陷引争议

据@godofprompt称，4.7忽视项目指令与MCP配置，Anthropic已承认回归，建议特定场景谨慎使用。

原文链接

2026-05-11
08:38

Kimi K2.6以六分之一价颠覆Claude

据@_avichawla称，Kimi K2.6以更低价对标Claude，并在SWE-Bench Pro得分58.6。

原文链接

2026-05-09
22:15

Claude Opus4.7性能飙升至87.6%

据@godofprompt称，Opus4.7严格执行指令，SWE-bench达87.6%。

原文链接

2026-04-15
21:18

斯坦福2026 AI指数重磅分析：锯齿式智能、提示敏感性与头部模型性能趋同

据X平台账号God of Prompt援引斯坦福《2026 AI Index》称，前沿模型在科学基准与竞赛数学上已超越博士水平，但在读模拟时钟任务上仅有50.1%正确率，体现斯坦福所称“锯齿式智能”，即能力高峰与盲点并存（据斯坦福AI Index 2026）。据该报告，Anthropic、谷歌、OpenAI、xAI、DeepSeek与阿里巴巴等头部模型差距显著缩小，Anthropic领先约2.7%，这意味着模型能力上限趋同，运营者的提示设计与问题定义将决定实际效果（据斯坦福AI Index 2026）。报告还指出基础模型透明度指数由58降至40，训练数据、参数规模与算力披露减少，企业需通过结构化测试与领域评测替代对厂商文档的依赖（据斯坦福AI Index 2026）。同时，全球生成式AI采用率在三年内达53%，88%组织在至少一项核心职能中使用AI；SWE-bench Verified从约60%提升至近乎完美，显示瓶颈转向操作与流程编排（据斯坦福AI Index 2026）。据该报告，美国消费者年度生成式AI价值达172亿美元级别，且人均价值中位数同比三倍增长，提示在提示工程、评测工具与工作流编排上的商业机会正快速扩大。

原文链接

2026-04-09
18:28

Claude Sonnet 搭配 Opus 顾问在 SWE-bench 多语种提升2.7分且成本降11.9%：最新评测分析

据 @claudeai 在推特公布的信息，Sonnet 与 Opus 顾问协作在 SWE-bench 多语种评测中比分单独 Sonnet 提高2.7个百分点，同时每个任务成本下降11.9%。据该推文报道，这种“顾问式”编排在多语代码生成与修复场景中实现了更高通过率与更低开销。对AI产品团队而言，该结果表明可采用“Sonnet主推理、Opus择机指导”的路由策略，在保持可控成本的同时提升多语言软件工程基准表现。

原文链接

2026-02-27
12:10

MiniMax M2.5 超越 Opus 4.6：SWE‑Bench Verified 80.2%，速度提升3倍，每小时仅$1 的AI编码基准分析

据 X 平台用户 God of Prompt 表示，MiniMax M2.5 在 SWE‑Bench Verified 基准上取得 80.2% 成绩，执行速度约快 3 倍，并以每小时 $1 的统一价格提供，同时仅启用 100 亿参数，被定位为最小的 Tier‑1 级编码模型。该来源称，这些指标带来更低时延与更优推理成本，使 24/7 持续运行的自主编码代理与持续集成机器人在预算内可行。基于同一来源的信息，高准确率与小激活参数量的组合提升效率与性价比，可为部署代码助手、测试修复机器人与维护代理的团队带来更高投资回报。

原文链接

2026-02-02
16:46

Claude Sonnet 5对比Opus 4.5：最新泄露显示价格更低、速度更快与自主编码代理

据Twitter用户@godofprompt透露，Vertex AI在错误日志中泄露了Claude Sonnet 5的最新信息。该模型据称比Opus 4.5便宜50%以上，并保持100万上下文窗口，同时运行速度更快。值得关注的是，Claude Sonnet 5支持通过终端生成并行子代理，并在SWE-bench基准测试中达到80.9%。最引人注目的功能是“开发团队模式”，用户仅需简要说明，即可由代理自主构建完整功能。尽管消息尚未证实，但若属实，将重塑AI编码代理市场，为企业自动化提供全新商机。

原文链接

AI 快讯列表关于 SWE基准