AI 快讯列表关于 知识工作自动化
| 时间 | 详情 |
|---|---|
|
2025-12-11 18:33 |
GPT-5.2超越Gemini和Claude:AI基准测试引领知识工作与自动化革命
根据God of Prompt的报道,GPT-5.2在Thinking evals基准测试中大幅超越Gemini和Claude,推动AI在实际知识工作和自动化领域实现重大突破(来源:twitter.com/godofprompt/status/1999185858948399599)。GPT-5.2在44个职业领域的真实任务中,70.9%情况下达到或超过行业专家水平,涵盖演示文稿、财务建模、工程图等高价值工作。其编码能力显著提升,在SWE-Bench Pro测试中达到55.6%,能够处理真实代码库和功能需求。长文本处理能力接近100%准确率,可分析合同、论文等大体量文档。工具使用准确率高达98.7%,支持自主完成多步骤复杂流程。视觉识别能力大幅提升,图表和UI识别错误减少一半,在数学与科学领域表现卓越,AIME 2025测试得分100%,GPQA Diamond超92%。这些突破为自动化、科研、数据分析及专业服务等行业带来全新商业机会,使GPT-5.2成为企业数字化转型的核心动力。 |