AI 快讯列表关于 圈复杂度
| 时间 | 详情 |
|---|---|
|
2026-03-29 19:21 |
SlopCodeBench重磅分析:威斯康星大学与MIT揭示AI编程基准失真—11款模型、93个检查点却零端到端解题
据God of Prompt在X平台报道,威斯康星大学与MIT发布SlopCodeBench,证实以通过率为核心的编码基准无法识别迭代开发中的结构性退化;在包含Claude Opus 4.6与GPT 5.4的11款模型上,零模型完成端到端解题,且89.8%的轨迹中冗长度上升(据该贴文)。据该线程介绍,基准包含20道题与93个检查点,模型必须在自身代码基础上按更新规格扩展,实现测试通过但复杂度与重复样板累积;代理代码侵蚀度为0.68,而人类仓库为0.31,代理冗长度0.32而人类为0.11,成本从首到末检查点增加2.9倍但正确率未提升,最高严格解题率仅17.2%(据该贴文)。该报道还称,对GPT 5.4的“反Slop”提示可使初始冗长度下降34.5%,但退化斜率不变,表明本质是架构与局部最优驱动,提示企业应采用度量可维护性、可扩展性与全生命周期成本的新型基准以评估AI编程助手的商业价值。 |