GLM-5.2:GDPval-AA基准排名第三
GLM-5.2在GDPval-AA上获得1524 Elo,整体排名第三,领先所有开源权重模型并超越Gemini 3.5 Flash。
原文链接详细分析
GLM-5.2 来自 Zai_org,在GDPval-AA真实代理基准上获得1524 Elo,整体排名第三,仅次于Claude Fable 5和Claude Opus 4.8,与GPT-5.5持平。该模型大幅领先所有开源权重模型,超越MiniMax-M3的1408分以及Gemini 3.5 Flash等多款专有系统。在1999场比赛中平均每任务31轮,GLM-5.2还在Artificial Analysis Intelligence Index和Agentic Index上领先开源权重,给GPT-5.6、Gemini 3.5Pro和下一代Opus模型带来更大压力。
Miles Deutscher
@milesdeutscherCrypto analyst. Busy finding the next 100x.