AI基准 快讯列表

时间	详情
2026-02-10 22:30	Opus 4.6 实现成本大幅降低但性能无提升根据 Miles Deutscher 的说法，最近一项研究比较了最新的 Claude 模型 Opus 4.6 与其前代 Opus 4.5 在 165 项任务中的表现，结果显示性能未有提升。然而，Opus 4.6 在成本和运行时间方面实现了 50% 的显著降低。尽管这些是重要的运营效率提升，Deutscher 建议在解读 AI 基准测试时保持谨慎，并建议根据具体需求测试模型的有效性。来源
2026-01-11 20:04	Gensyn 发布轻量级通用推理基准 Eval 2/11：Delphi 市场上线，完整结果已在 GitHub 公布根据 @gensynai 的信息，Gensyn 轻量级通用推理基准的第 2/11 次评测已在 Delphi 的基准市场上线（来源：@gensynai，X，2026年1月11日）。作者提供了 GitHub 仓库 gensyn-ai/delphi-lightweight-reasoning 的链接，用于查看完整基准结果（来源：@gensynai，X，2026年1月11日）。帖子显示总计有 11 次评测，交易者可通过该 GitHub 链接持续跟踪基准进展（来源：@gensynai，X，2026年1月11日）。来源
2025-12-30 01:07	Gensyn (GENS) Delphi基准最终评测11/11已上线：市场于12月29日至1月7日停盘，完整结果公布据@gensynai称，Gensyn中量级通用推理Delphi基准市场的第11次（共11次）评测已上线，标志着本次评测周期完成（来源：@gensynai 于X，2025-12-30）。据@gensynai称，这是该Delphi基准市场的最终评测，本轮不再有后续评测安排（来源：@gensynai 于X，2025-12-30）。据@gensynai称，市场将于12月29日至1月7日期间不运行，意味着该基准窗口内Delphi暂停（来源：@gensynai 于X，2025-12-30）。据@gensynai称，交易者可在 https://github.com/gensyn-ai/delphi-middleweight-reasoning 查看完整评测结果，用于此Delphi基准赛道的时序与分析参考（来源：@gensynai 于X，2025-12-30）。据@gensynai称，评测完成与明确的停盘时间为关注Gensyn（GENS）与AI算力基准的参与者界定了该市场的近期催化时间轴（仅限本基准市场）（来源：@gensynai 于X，2025-12-30）。来源
2025-12-27 20:41	Gensyn发布Middleweight通用推理基准第10/11轮评测（Delphi）：完整结果已在GitHub公开（2025 AI基准更新）据@gensynai称，Gensyn Middleweight通用推理基准在Delphi的第10/11轮评测已上线（来源：https://twitter.com/gensynai/status/2005016298993189175）。完整基准测试结果已在官方仓库https://github.com/gensyn-ai/delphi-middleweight-reasoning公开，市场参与者可直接查看官方发布的结果与细节（来源：https://github.com/gensyn-ai/delphi-middleweight-reasoning）。来源
2025-12-23 20:57	GPT-5.2 在 ARC-AGI-2 超越人类基线：AI基准里程碑与交易要点根据 @gdb 的信息，GPT-5.2 在 ARC-AGI-2 基准上超过了人类基线，此消息发布于 2025 年 12 月 23 日，属于重要的AI能力里程碑，来源： https://twitter.com/gdb/status/2003570781192957991。该帖子未披露具体分数、评测方法或参数设定，当前难以进行横向对比与独立验证，来源： https://twitter.com/gdb/status/2003570781192957991。帖子未提及发布时间、商业化细节，也未涉及任何加密货币、股票代码或代币信息，在进一步披露前对交易层面的直接指引有限，来源： https://twitter.com/gdb/status/2003570781192957991。来源
2025-12-07 17:24	2025年BEHAVIOR挑战赛结果出炉：Robot Learning Collective夺冠，Comet与SimpleAI分列二三，50项家务任务表现强劲据@drfeifei披露，首届BEHAVIOR挑战赛公布结果，参赛团队在50项家务类任务上整体表现强劲，Robot Learning Collective获冠军、Comet获亚军、SimpleAI Robot获季军，并提供排行榜链接shorturl.at/xaAlU；来源：李飞飞X平台，2025年12月7日。据@drfeifei信息，该公告仅公布获奖队伍与表现表述，未给出量化得分、交易指标或财务数据；来源：李飞飞X平台，2025年12月7日。据@drfeifei内容，该帖未提及BTC、ETH或AI相关加密代币，亦未给出明确市场指引，源内容不构成直接交易信号；来源：李飞飞X平台，2025年12月7日。来源
2025-09-13 16:08	Andrej Karpathy 提及 GSM8K（2021）：AI基准信号与加密交易者的观察要点根据 @karpathy 的说法，他在2025年9月13日的X帖子中提到了2021年的GSM8K论文段落，强调对大模型推理评估的持续关注（来源：Andrej Karpathy，2025年9月13日X帖子）。GSM8K是一项用于评估语言模型多步推理能力的小学数学文字题基准，被用作量化推理进步的核心指标（来源：Cobbe 等，GSM8K 论文，2021年）。由于该帖子未宣布任何新模型、数据集或基准分数，目前对AI概念加密资产没有直接且可验证的交易催化（来源：Andrej Karpathy，2025年9月13日X帖子）。交易者应等待可测的GSM8K分数提升或发布说明再进行布局，因为GSM8K专门用于量化推理提升（来源：Cobbe 等，GSM8K 论文，2021年）。来源
2025-05-29 19:16	Gemini 2.5登顶AI基准榜单：AI进步引发加密市场关注据Oriol Vinyals（@OriolVinyalsML）在推特发布的信息显示，Gemini 2.5在领先AI基准榜单中获得第一，标志着人工智能能力的重大提升（来源：Twitter）。此进展对加密货币交易者具有重要意义，因AI技术突破通常会提升市场对AI相关代币的乐观预期，并可能影响去中心化AI平台相关加密货币的估值。随着此类里程碑的出现，FET、AGIX等AI概念币可能出现波动和交易量上升。来源
2025-05-22 03:39	Gemini 2.5 Pro以49.4% USAMO 2025得分刷新AI基准，对加密市场影响深远根据@lmthang在Google I/O大会上的发布，Gemini 2.5 Pro搭载DeepThink模式，在2025年USAMO数学基准测试中取得了49.4%的突破性成绩，成为AI复杂数学证明领域的新标杆（来源：Twitter/@lmthang，2025年5月22日）。这一AI推理与解题能力的重大突破，预计将推动AI相关加密代币需求上升，并影响AI基础设施类加密项目的市场表现，交易者可关注受益于机器智能快速进步的相关资产。来源

2026-02-10
22:30

根据 Miles Deutscher 的说法，最近一项研究比较了最新的 Claude 模型 Opus 4.6 与其前代 Opus 4.5 在 165 项任务中的表现，结果显示性能未有提升。然而，Opus 4.6 在成本和运行时间方面实现了 50% 的显著降低。尽管这些是重要的运营效率提升，Deutscher 建议在解读 AI 基准测试时保持谨慎，并建议根据具体需求测试模型的有效性。

来源

2026-01-11
20:04

Gensyn 发布轻量级通用推理基准 Eval 2/11：Delphi 市场上线，完整结果已在 GitHub 公布

根据 @gensynai 的信息，Gensyn 轻量级通用推理基准的第 2/11 次评测已在 Delphi 的基准市场上线（来源：@gensynai，X，2026年1月11日）。作者提供了 GitHub 仓库 gensyn-ai/delphi-lightweight-reasoning 的链接，用于查看完整基准结果（来源：@gensynai，X，2026年1月11日）。帖子显示总计有 11 次评测，交易者可通过该 GitHub 链接持续跟踪基准进展（来源：@gensynai，X，2026年1月11日）。

来源

2025-12-30
01:07

Gensyn (GENS) Delphi基准最终评测11/11已上线：市场于12月29日至1月7日停盘，完整结果公布

据@gensynai称，Gensyn中量级通用推理Delphi基准市场的第11次（共11次）评测已上线，标志着本次评测周期完成（来源：@gensynai 于X，2025-12-30）。据@gensynai称，这是该Delphi基准市场的最终评测，本轮不再有后续评测安排（来源：@gensynai 于X，2025-12-30）。据@gensynai称，市场将于12月29日至1月7日期间不运行，意味着该基准窗口内Delphi暂停（来源：@gensynai 于X，2025-12-30）。据@gensynai称，交易者可在 https://github.com/gensyn-ai/delphi-middleweight-reasoning 查看完整评测结果，用于此Delphi基准赛道的时序与分析参考（来源：@gensynai 于X，2025-12-30）。据@gensynai称，评测完成与明确的停盘时间为关注Gensyn（GENS）与AI算力基准的参与者界定了该市场的近期催化时间轴（仅限本基准市场）（来源：@gensynai 于X，2025-12-30）。

来源

2025-12-27
20:41

Gensyn发布Middleweight通用推理基准第10/11轮评测（Delphi）：完整结果已在GitHub公开（2025 AI基准更新）

据@gensynai称，Gensyn Middleweight通用推理基准在Delphi的第10/11轮评测已上线（来源：https://twitter.com/gensynai/status/2005016298993189175）。完整基准测试结果已在官方仓库https://github.com/gensyn-ai/delphi-middleweight-reasoning公开，市场参与者可直接查看官方发布的结果与细节（来源：https://github.com/gensyn-ai/delphi-middleweight-reasoning）。

来源

2025-12-23
20:57

GPT-5.2 在 ARC-AGI-2 超越人类基线：AI基准里程碑与交易要点

根据 @gdb 的信息，GPT-5.2 在 ARC-AGI-2 基准上超过了人类基线，此消息发布于 2025 年 12 月 23 日，属于重要的AI能力里程碑，来源： https://twitter.com/gdb/status/2003570781192957991。该帖子未披露具体分数、评测方法或参数设定，当前难以进行横向对比与独立验证，来源： https://twitter.com/gdb/status/2003570781192957991。帖子未提及发布时间、商业化细节，也未涉及任何加密货币、股票代码或代币信息，在进一步披露前对交易层面的直接指引有限，来源： https://twitter.com/gdb/status/2003570781192957991。

来源

2025-12-07
17:24

2025年BEHAVIOR挑战赛结果出炉：Robot Learning Collective夺冠，Comet与SimpleAI分列二三，50项家务任务表现强劲

据@drfeifei披露，首届BEHAVIOR挑战赛公布结果，参赛团队在50项家务类任务上整体表现强劲，Robot Learning Collective获冠军、Comet获亚军、SimpleAI Robot获季军，并提供排行榜链接shorturl.at/xaAlU；来源：李飞飞X平台，2025年12月7日。据@drfeifei信息，该公告仅公布获奖队伍与表现表述，未给出量化得分、交易指标或财务数据；来源：李飞飞X平台，2025年12月7日。据@drfeifei内容，该帖未提及BTC、ETH或AI相关加密代币，亦未给出明确市场指引，源内容不构成直接交易信号；来源：李飞飞X平台，2025年12月7日。

来源

2025-09-13
16:08

Andrej Karpathy 提及 GSM8K（2021）：AI基准信号与加密交易者的观察要点

根据 @karpathy 的说法，他在2025年9月13日的X帖子中提到了2021年的GSM8K论文段落，强调对大模型推理评估的持续关注（来源：Andrej Karpathy，2025年9月13日X帖子）。GSM8K是一项用于评估语言模型多步推理能力的小学数学文字题基准，被用作量化推理进步的核心指标（来源：Cobbe 等，GSM8K 论文，2021年）。由于该帖子未宣布任何新模型、数据集或基准分数，目前对AI概念加密资产没有直接且可验证的交易催化（来源：Andrej Karpathy，2025年9月13日X帖子）。交易者应等待可测的GSM8K分数提升或发布说明再进行布局，因为GSM8K专门用于量化推理提升（来源：Cobbe 等，GSM8K 论文，2021年）。

来源

2025-05-29
19:16

Gemini 2.5登顶AI基准榜单：AI进步引发加密市场关注

据Oriol Vinyals（@OriolVinyalsML）在推特发布的信息显示，Gemini 2.5在领先AI基准榜单中获得第一，标志着人工智能能力的重大提升（来源：Twitter）。此进展对加密货币交易者具有重要意义，因AI技术突破通常会提升市场对AI相关代币的乐观预期，并可能影响去中心化AI平台相关加密货币的估值。随着此类里程碑的出现，FET、AGIX等AI概念币可能出现波动和交易量上升。

来源

2025-05-22
03:39

Gemini 2.5 Pro以49.4% USAMO 2025得分刷新AI基准，对加密市场影响深远

根据@lmthang在Google I/O大会上的发布，Gemini 2.5 Pro搭载DeepThink模式，在2025年USAMO数学基准测试中取得了49.4%的突破性成绩，成为AI复杂数学证明领域的新标杆（来源：Twitter/@lmthang，2025年5月22日）。这一AI推理与解题能力的重大突破，预计将推动AI相关加密代币需求上升，并影响AI基础设施类加密项目的市场表现，交易者可关注受益于机器智能快速进步的相关资产。

来源

关于 AI基准 的快讯列表

关于 AI基准的快讯列表