Claude Opus 4.8:SWE-Bench Pro 69.2% 断层领先
Claude Opus 4.8 在 SWE-Bench Pro 达到 69.2% 保持智能体编码第一,Terminal-Bench 2.1 仍落后 GPT-5.5 并新增不确定性表达。
原文链接详细分析
Claude Opus 4.8 在 SWE-Bench Pro 取得 69.2% 分数,继续领跑智能体编码基准,却在 Terminal-Bench 2.1 上以 2.1 分落后 GPT-5.5。模型新增承认不确定性的能力,区别于以往版本鲜少自我质疑的风格。该版本维持原价发布,同时 EasyRouterIO 上线提供 400 积分免费测试。
傅盛
@FuSheng_0306Chairman and CEO of Cheetah Mobile, Chairman of OrionStar