AI基准测试 快讯列表

时间	详情
2026-02-12 21:01	Gemini 3 Deep Think 在AI基准测试中创下新纪录据Demis Hassabis表示，Gemini 3 Deep Think模型进行了重要升级，在关键AI性能基准测试中取得了突破性成果，包括在ARC-AGI-2中获得84.6%的得分，在无工具情况下完成Humanity's Last Exam取得48.4%，以及在Codeforces上达到3455 Elo评分。这些进展突显了该模型在数学、科学和推理领域的强大能力，为AI驱动的创新和应用提供了重要意义。来源
2025-08-04 18:26	AI游戏基准测试加速进步：DeepMind AlphaGo与AlphaZero推动加密货币交易AI发展据Demis Hassabis表示，游戏一直是人工智能的重要测试平台，AlphaGo和AlphaZero是典型案例。随着Arena基准测试平台不断增加新游戏和挑战，Hassabis预计AI能力将迅速提升。这一进步可能为加密货币交易带来更智能的算法和市场预测工具，提升BTC、ETH等主要币种的交易效率和准确性（来源：@demishassabis）。来源
2025-07-29 13:15	Moonshot AI发布Kimi K2千亿参数大模型：开放权重引领AI性能新高据DeepLearningAI报道，总部位于北京的Moonshot AI推出了Kimi K2大语言模型家族，开放了拥有一万亿参数的模型权重，并采用了改进版MIT开源协议。经过微调的Kimi-K2-Instruct在LiveCodeBench上获得53%分数，在AceBench上达到76.5%，性能超越其他主流模型。这一举措有望推动AI创新，助力加密货币市场项目在DeFi、量化交易与区块链分析等领域快速集成强大AI能力（来源：DeepLearningAI）。来源
2025-06-05 16:00	Gemini 2.5 Pro更新提升24点Elo分数，AI能力大幅跃升引发加密市场关注根据Sundar Pichai在推特发布的信息，Gemini 2.5 Pro最新预览版带来了编程、推理、科学与数学方面的显著提升，并在AIDER Polyglot、GPQA、HLE等关键基准测试中表现优异，Elo评分相比上一版本跃升24分（来源：Sundar Pichai，Twitter，2025年6月5日）。对于加密货币交易者而言，这一AI升级有望加速区块链与人工智能的融合，推动AI相关加密资产和去中心化算力代币的需求增长。来源
2025-05-22 07:56	Gemini 2.5 Pro Deep Think在数学、编程和多模态AI基准测试中获得最高分根据Demis Hassabis的消息，Gemini 2.5 Pro Deep Think在数学、编程和多模态推理的多个高难度基准测试中取得最高分（来源：@demishassabis，2025年5月22日）。这一突破表明Gemini 2.5 Pro在AI驱动问题解决方面具备领先优势，预计将推动加密货币领域的AI应用加速发展，特别是在交易算法和链上分析方面。加密货币交易者应关注相关AI代币的市场动态，以及Gemini表现带动的去中心化AI基础设施需求上升。来源

2026-02-12
21:01

据Demis Hassabis表示，Gemini 3 Deep Think模型进行了重要升级，在关键AI性能基准测试中取得了突破性成果，包括在ARC-AGI-2中获得84.6%的得分，在无工具情况下完成Humanity's Last Exam取得48.4%，以及在Codeforces上达到3455 Elo评分。这些进展突显了该模型在数学、科学和推理领域的强大能力，为AI驱动的创新和应用提供了重要意义。

来源

2025-08-04
18:26

AI游戏基准测试加速进步：DeepMind AlphaGo与AlphaZero推动加密货币交易AI发展

据Demis Hassabis表示，游戏一直是人工智能的重要测试平台，AlphaGo和AlphaZero是典型案例。随着Arena基准测试平台不断增加新游戏和挑战，Hassabis预计AI能力将迅速提升。这一进步可能为加密货币交易带来更智能的算法和市场预测工具，提升BTC、ETH等主要币种的交易效率和准确性（来源：@demishassabis）。

来源

2025-07-29
13:15

Moonshot AI发布Kimi K2千亿参数大模型：开放权重引领AI性能新高

据DeepLearningAI报道，总部位于北京的Moonshot AI推出了Kimi K2大语言模型家族，开放了拥有一万亿参数的模型权重，并采用了改进版MIT开源协议。经过微调的Kimi-K2-Instruct在LiveCodeBench上获得53%分数，在AceBench上达到76.5%，性能超越其他主流模型。这一举措有望推动AI创新，助力加密货币市场项目在DeFi、量化交易与区块链分析等领域快速集成强大AI能力（来源：DeepLearningAI）。

来源

2025-06-05
16:00

Gemini 2.5 Pro更新提升24点Elo分数，AI能力大幅跃升引发加密市场关注

根据Sundar Pichai在推特发布的信息，Gemini 2.5 Pro最新预览版带来了编程、推理、科学与数学方面的显著提升，并在AIDER Polyglot、GPQA、HLE等关键基准测试中表现优异，Elo评分相比上一版本跃升24分（来源：Sundar Pichai，Twitter，2025年6月5日）。对于加密货币交易者而言，这一AI升级有望加速区块链与人工智能的融合，推动AI相关加密资产和去中心化算力代币的需求增长。

来源

2025-05-22
07:56

Gemini 2.5 Pro Deep Think在数学、编程和多模态AI基准测试中获得最高分

根据Demis Hassabis的消息，Gemini 2.5 Pro Deep Think在数学、编程和多模态推理的多个高难度基准测试中取得最高分（来源：@demishassabis，2025年5月22日）。这一突破表明Gemini 2.5 Pro在AI驱动问题解决方面具备领先优势，预计将推动加密货币领域的AI应用加速发展，特别是在交易算法和链上分析方面。加密货币交易者应关注相关AI代币的市场动态，以及Gemini表现带动的去中心化AI基础设施需求上升。

来源

关于 AI基准测试 的快讯列表

关于 AI基准测试的快讯列表