圈复杂度 AI快讯列表

predict.info — Premium Domain For Sale Domain only: USD 200,000. Prediction platform technology priced separately. predict.info

Inquire

AI 快讯列表

AI 快讯列表关于圈复杂度

时间	详情
2026-03-29 19:21	SlopCodeBench重磅分析：威斯康星大学与MIT揭示AI编程基准失真—11款模型、93个检查点却零端到端解题据God of Prompt在X平台报道，威斯康星大学与MIT发布SlopCodeBench，证实以通过率为核心的编码基准无法识别迭代开发中的结构性退化；在包含Claude Opus 4.6与GPT 5.4的11款模型上，零模型完成端到端解题，且89.8%的轨迹中冗长度上升（据该贴文）。据该线程介绍，基准包含20道题与93个检查点，模型必须在自身代码基础上按更新规格扩展，实现测试通过但复杂度与重复样板累积；代理代码侵蚀度为0.68，而人类仓库为0.31，代理冗长度0.32而人类为0.11，成本从首到末检查点增加2.9倍但正确率未提升，最高严格解题率仅17.2%（据该贴文）。该报道还称，对GPT 5.4的“反Slop”提示可使初始冗长度下降34.5%，但退化斜率不变，表明本质是架构与局部最优驱动，提示企业应采用度量可维护性、可扩展性与全生命周期成本的新型基准以评估AI编程助手的商业价值。原文链接

时间

详情

2026-03-29
19:21

SlopCodeBench重磅分析：威斯康星大学与MIT揭示AI编程基准失真—11款模型、93个检查点却零端到端解题

据God of Prompt在X平台报道，威斯康星大学与MIT发布SlopCodeBench，证实以通过率为核心的编码基准无法识别迭代开发中的结构性退化；在包含Claude Opus 4.6与GPT 5.4的11款模型上，零模型完成端到端解题，且89.8%的轨迹中冗长度上升（据该贴文）。据该线程介绍，基准包含20道题与93个检查点，模型必须在自身代码基础上按更新规格扩展，实现测试通过但复杂度与重复样板累积；代理代码侵蚀度为0.68，而人类仓库为0.31，代理冗长度0.32而人类为0.11，成本从首到末检查点增加2.9倍但正确率未提升，最高严格解题率仅17.2%（据该贴文）。该报道还称，对GPT 5.4的“反Slop”提示可使初始冗长度下降34.5%，但退化斜率不变，表明本质是架构与局部最优驱动，提示企业应采用度量可维护性、可扩展性与全生命周期成本的新型基准以评估AI编程助手的商业价值。

原文链接

AI 快讯列表关于 圈复杂度

AI 快讯列表关于圈复杂度