Claude Opus 4.8：SWE-Bench Pro 69.2% 断层领先

Claude Opus 4.8 在 SWE-Bench Pro 达到 69.2% 保持智能体编码第一，Terminal-Bench 2.1 仍落后 GPT-5.5 并新增不确定性表达。

详细分析

Claude Opus 4.8 在 SWE-Bench Pro 取得 69.2% 分数，继续领跑智能体编码基准，却在 Terminal-Bench 2.1 上以 2.1 分落后 GPT-5.5。模型新增承认不确定性的能力，区别于以往版本鲜少自我质疑的风格。该版本维持原价发布，同时 EasyRouterIO 上线提供 400 积分免费测试。

代币生态

傅盛

@FuSheng_0306

Chairman and CEO of Cheetah Mobile, Chairman of OrionStar

Claude Opus 4.8：SWE-Bench Pro 69.2% 断层领先

详细分析

傅盛

Premium Sponsors

热门话题