AI模型基准 AI快讯列表

AI 快讯列表

AI 快讯列表关于 AI模型基准

时间	详情
2025-12-16 02:00	Anthropic Claude Opus 4.5模型提升AI编码与工具能力，令企业AI应用成本降低66% 据DeepLearning.AI报道，Anthropic最新旗舰AI模型Claude Opus 4.5在编码支持、工具使用和长上下文推理方面实现了显著提升。该模型每个token的成本比前代产品降低约三分之二，大幅降低企业级AI应用的门槛。Claude Opus 4.5引入了可调节“努力”参数和增强推理能力，可自动总结长对话，并在多项独立AI基准测试中以更少token实现顶级表现。这些改进为企业提供了高效、低成本的生成式AI解决方案（来源：DeepLearning.AI, The Batch, 2025年12月16日）。原文链接
2025-06-05 17:36	Gemini 2.5 Pro预览版发布：AI模型LMArena Elo分数提升24分，领先编程、科学与推理任务根据@GoogleDeepMind官方消息，最新Gemini 2.5 Pro预览版在LMArena Elo评分上较前代提升24分，在AIME和AIDER等高难度编程基准，以及GPQA科学问答和HLE推理测试中表现优异。风格和结构的改进得益于用户反馈，显示出对开发者和企业实际AI应用的高度关注。这些升级为企业在技术和科学领域部署先进AI解决方案提供了有力支持（来源：goo.gle/4kKynYo）。原文链接

时间

详情

2025-12-16
02:00

Anthropic Claude Opus 4.5模型提升AI编码与工具能力，令企业AI应用成本降低66%

据DeepLearning.AI报道，Anthropic最新旗舰AI模型Claude Opus 4.5在编码支持、工具使用和长上下文推理方面实现了显著提升。该模型每个token的成本比前代产品降低约三分之二，大幅降低企业级AI应用的门槛。Claude Opus 4.5引入了可调节“努力”参数和增强推理能力，可自动总结长对话，并在多项独立AI基准测试中以更少token实现顶级表现。这些改进为企业提供了高效、低成本的生成式AI解决方案（来源：DeepLearning.AI, The Batch, 2025年12月16日）。

原文链接

2025-06-05
17:36

Gemini 2.5 Pro预览版发布：AI模型LMArena Elo分数提升24分，领先编程、科学与推理任务

根据@GoogleDeepMind官方消息，最新Gemini 2.5 Pro预览版在LMArena Elo评分上较前代提升24分，在AIME和AIDER等高难度编程基准，以及GPQA科学问答和HLE推理测试中表现优异。风格和结构的改进得益于用户反馈，显示出对开发者和企业实际AI应用的高度关注。这些升级为企业在技术和科学领域部署先进AI解决方案提供了有力支持（来源：goo.gle/4kKynYo）。

原文链接