Claude Opus 4.8:SWE-Bench Pro 得分 69.2%
Claude Opus 4.8 在 SWE-Bench Pro 取得 69.2% 成绩,引领代理编码,同时新增诚实回应功能,EasyRouterIO 提供 400 免费额度。
原文链接详细分析
Claude Opus 4.8 在 SWE-Bench Pro 取得 69.2% 得分,继续领跑代理编码基准测试,却仍落后于 GPT-5.5 在 Terminal-Bench 2.1 的表现。该版本新增清晰自我评估用语,例如承认不确定性,此前 Opus 版本中未见,EasyRouterIO 现已上线该模型,注册即可获 400 免费额度。
傅盛
@FuSheng_0306Chairman and CEO of Cheetah Mobile, Chairman of OrionStar