基准测试 快讯列表

时间	详情
2026-07-14 16:54	Starchild：智能路由以9倍低成本达成前沿模型精度 Starchild智能路由在9个LLM基准测试中保持前沿模型精度，同时将每正确答案成本降低约9倍。来源
2026-06-21 16:31	Inception Labs：Mercury 2 AI 超越 Google DiffusionGemma Inception Labs Mercury 2 AI 在基准测试中击败 Google DiffusionGemma，推动 AI 行业影响与机器学习进步。来源
2026-04-24 08:07	OpenAI：推出超越GPT-5.4的新模型 OpenAI最新模型匹配GPT-5.4速度并在基准测试中超越，今日向付费ChatGPT用户推出，影响AI行业。来源
2026-03-10 19:27	AI基准测试揭示大多数模型在关键评估中失败根据消息来源，一项新的基准测试被开发出来，用于评估AI生成内容的准确性和可靠性，特别是针对误导性或不准确的输出(通常被称为“废话”)。该测试揭示了大多数AI模型的显著缺陷，令人担忧其在现实世界应用中的可靠性。这一发展对依赖AI的行业至关重要，强调了改进模型训练和验证以确保可信输出的必要性。来源
2026-02-24 20:02	Gensyn AI 发布快速推理基准测试 Eval 10 结果根据 @gensynai 的消息，Eval 10 的结果现已在 Gensyn 商业快速推理基准测试市场 Delphi 上发布。这一基准测试为快速推理任务的 AI 性能提供了洞察，数据对技术和交易应用具有重要价值。完整结果已公开，可供利益相关方评估 AI 推理能力的最新进展。来源
2026-02-10 20:08	Gensyn在Delphi发布商业快速推理基准的Eval 3 根据@gensynai，在Delphi的Gensyn商业快速推理基准市场中发布了Eval 3。这项评估为AI推理模型的性能提供了重要洞察，为交易者和开发者评估模型效率及其在各行业中的潜在应用提供了有价值的数据。完整基准测试结果可在GitHub上查看。来源
2025-12-19 20:14	Gensyn在Delphi上线通用推理中量级基准第6/11次评测——完整结果已发布，利于交易参考据@gensynai称，Gensyn在Delphi的通用推理中量级基准评测第6/11次现已上线，为交易者提供可参考的实时基准市场更新（来源：X/@gensynai）。完整评测结果已在官方GitHub仓库公开，便于即时查看发布的性能数据（来源：GitHub gensyn-ai/delphi-middleweight-reasoning）。对于参与Delphi基准市场的交易者，最新结果可用于依据已上线的市场结构对与该基准结果相关的持仓进行校准（来源：X/@gensynai；来源：GitHub gensyn-ai/delphi-middleweight-reasoning）。来源
2025-12-11 18:37	OpenAI 推出 GPT-5.2 基准表现非常强劲 — AI 概念币 RNDR 与 FET 的交易要点据 @gdb 称，OpenAI 已发布 GPT-5.2 并称其基准测试表现非常强劲，同时提供了官方详情页面以供确认（来源：@gdb；来源：OpenAI）。就交易层面，建议重点关注被归类为 AI 与大数据板块的加密资产，例如 Render RNDR 与 Fetch.ai FET，以便跟踪板块资金流与相对强弱（来源：CoinGecko）。在发布窗口前后，建议监测 RNDR 与 FET 的现货成交量、资金费率与未平仓合约，以评估杠杆定位与潜在波动扩张（来源：Binance Futures 市场数据；来源：Bybit 衍生品数据）。来源
2025-12-09 19:47	Anthropic披露SGTM研究局限：小模型与代理评估、无法阻止上下文攻击——交易影响解析据@AnthropicAI称，该SGTM研究基于简化环境，使用小模型并采用代理评估而非标准基准测试，因而对生产级系统的外推有限，来源：https://twitter.com/AnthropicAI/status/1998479616651178259。据@AnthropicAI称，SGTM无法阻止由对手在提示中直接提供信息的上下文攻击，显示模型滥用风险仍未解决，来源：https://twitter.com/AnthropicAI/status/1998479616651178259。据@AnthropicAI称，该帖未提供标准基准结果，也未提及金融或加密资产，本次更新未指向任何直接的加密市场催化因素，来源：https://twitter.com/AnthropicAI/status/1998479616651178259。来源
2025-12-01 14:14	Runway发布AI视频模型，在关键基准上超越谷歌与OpenAI：交易者需知要点根据@CNBC，Runway推出新的AI视频模型，并在一项关键基准测试上击败谷歌和OpenAI的产品，此信息来自CNBC官方X账号于2025年12月1日发布的帖子，来源：CNBC。根据@CNBC，该帖子仅强调在单一基准上的相对领先，未提供更多基准细节或与加密市场的关联信息，来源：CNBC。来源
2025-10-07 19:45	谷歌DeepMind发布Gemini 2.5 Computer Use：浏览器原生AI代理更快速度与新基准表现据@GoogleDeepMind称，Gemini 2.5 Computer Use 模型可像人类一样操作浏览器，支持代理在线点击、滚动与输入；来源：@GoogleDeepMind，2025年10月7日。据@GoogleDeepMind称，该模型基于Gemini的视觉理解与推理能力，在多项基准上树立了新标准并具备更快速度；来源：@GoogleDeepMind，2025年10月7日。据@GoogleDeepMind称，该公告未提供发布时间、接入方式、定价信息，亦未提及与加密交易平台或交易工具的集成；来源：@GoogleDeepMind，2025年10月7日。据@GoogleDeepMind称，公告未直接涉及加密货币市场或交易功能，因此基于已披露信息，任何具体的加密市场影响尚未得到确认；来源：@GoogleDeepMind，2025年10月7日。来源
2025-08-20 18:32	LLoCO模型压缩突破：以30倍更少Token匹配32k上下文，并取得+13.64分提升根据@hyperbolic_labs，LLoCO在所有测试数据集上均超越基线方法（来源：@hyperbolic_labs，2025年8月20日）。根据@hyperbolic_labs，该方法在使用30倍更少的token情况下匹配32k上下文模型表现（来源：@hyperbolic_labs，2025年8月20日）。根据@hyperbolic_labs，相比未微调的压缩方案，LLoCO带来+13.64分的评分提升（来源：@hyperbolic_labs，2025年8月20日）。该帖子未提供与加密货币或市场影响相关的信息（来源：@hyperbolic_labs，2025年8月20日）。来源
2025-08-14 16:12	GPT-5 在精灵宝可梦代理演示中较 o3 提速3倍——AI交易者关注的关键基准根据 @gdb 的信息，GPT-5 在公开演示中游玩精灵宝可梦时，相比 o3 实现约3倍更快的游戏进度，提供了清晰的任务级代理性能基准（来源：@gdb 于 X 平台，2025年8月14日）。该帖未披露评测流程、算力或训练细节，因此无法据此评估可复现性与跨模型可比性（来源：@gdb 于 X 平台，2025年8月14日）。文中未提及加密货币、代币或链上集成，显示帖子未声明任何直接的加密市场影响（来源：@gdb 于 X 平台，2025年8月14日）。交易者可将“3倍进度”作为后续跨游戏或任务的代理演示对比参考，同时需注意该结论来自单一公开演示片段（来源：@gdb 于 X 平台，2025年8月14日）。来源
2025-03-12 17:18	谷歌DeepMind通过Gemini 2.0模型推进机器人技术据Sundar Pichai称，谷歌DeepMind正在通过其新的Gemini 2.0模型推进机器人技术，展示了在两个关键基准上的最先进性能。这一发展代表了将AI进步转化为物理世界应用的重要一步，可能影响依赖机器人和AI集成的行业。来源
2025-03-12 15:07	Gemini Robotics在新场景中展示出卓越的泛化能力根据Google DeepMind的消息，Gemini Robotics展示了向新场景泛化的能力，完成了训练中未见过的任务。平均而言，它在综合泛化基准测试中的表现比其他最先进的系统提高了一倍以上，这表明AI在适应性和效率方面取得了显著进步。来源
2025-03-12 15:04	Gemini 2.0机器人模型展示最先进性能根据Sundar Pichai的说法，最新的Gemini 2.0机器人模型在将AI应用于物理世界方面取得了显著进展，展示了在两个关键基准上的最先进性能。这一发展可能对依赖机器人和AI的行业产生影响，进而可能影响相关的加密货币市场。来源
2025-02-18 15:07	Grok-3 在预测市场中以 74% 的概率领先 AI 市场根据 @Kalshi 的说法，预测市场目前显示 Grok 本月成为全球领先 AI 的概率为 74%。这一激增是 Grok-3 发布后的结果，使 Grok 的几率增加了 50 个百分点。投资者应注意，Grok-3 的基准测试结果表现优异，可能影响 AI 市场动态和相关交易策略。来源
2025-02-07 04:00	OpenAI推出o3-mini模型，提高推理准确性并提供灵活的努力水平根据DeepLearning.AI的消息，OpenAI推出了o3-mini，这是其o1推理模型的后续产品，旨在提高编程、数学和科学任务的准确性。交易者应注意，o3-mini提供可选择的“努力”水平，用户可以在成本、速度和推理深度之间进行优化，这可能影响计算资源配置策略。尽管o3-mini在基准测试中优于o1-mini，但其性能尚未达到原始o1模型的水平，这可能影响对AI技术市场的投资决策。来源
2025-02-05 11:34	Photoroom的背景去除技术在基准测试中被证明优越根据@matthieurouif，Photoroom的背景去除技术通过开源基准测试被验证为全球最佳。该基准通过投票对先进模型进行排名，确保数据的可靠性和可信度。此类经过验证的技术如果集成到加密货币交易平台以增强视觉数据呈现，可能会影响交易策略并提升Photoroom的市场价值。来源

2026-07-14
16:54

Starchild：智能路由以9倍低成本达成前沿模型精度

Starchild智能路由在9个LLM基准测试中保持前沿模型精度，同时将每正确答案成本降低约9倍。

来源

2026-06-21
16:31

Inception Labs：Mercury 2 AI 超越 Google DiffusionGemma

Inception Labs Mercury 2 AI 在基准测试中击败 Google DiffusionGemma，推动 AI 行业影响与机器学习进步。

来源

2026-04-24
08:07

OpenAI：推出超越GPT-5.4的新模型

OpenAI最新模型匹配GPT-5.4速度并在基准测试中超越，今日向付费ChatGPT用户推出，影响AI行业。

来源

2026-03-10
19:27

AI基准测试揭示大多数模型在关键评估中失败

根据消息来源，一项新的基准测试被开发出来，用于评估AI生成内容的准确性和可靠性，特别是针对误导性或不准确的输出(通常被称为“废话”)。该测试揭示了大多数AI模型的显著缺陷，令人担忧其在现实世界应用中的可靠性。这一发展对依赖AI的行业至关重要，强调了改进模型训练和验证以确保可信输出的必要性。

来源

2026-02-24
20:02

Gensyn AI 发布快速推理基准测试 Eval 10 结果

根据 @gensynai 的消息，Eval 10 的结果现已在 Gensyn 商业快速推理基准测试市场 Delphi 上发布。这一基准测试为快速推理任务的 AI 性能提供了洞察，数据对技术和交易应用具有重要价值。完整结果已公开，可供利益相关方评估 AI 推理能力的最新进展。

来源

2026-02-10
20:08

Gensyn在Delphi发布商业快速推理基准的Eval 3

根据@gensynai，在Delphi的Gensyn商业快速推理基准市场中发布了Eval 3。这项评估为AI推理模型的性能提供了重要洞察，为交易者和开发者评估模型效率及其在各行业中的潜在应用提供了有价值的数据。完整基准测试结果可在GitHub上查看。

来源

2025-12-19
20:14

Gensyn在Delphi上线通用推理中量级基准第6/11次评测——完整结果已发布，利于交易参考

据@gensynai称，Gensyn在Delphi的通用推理中量级基准评测第6/11次现已上线，为交易者提供可参考的实时基准市场更新（来源：X/@gensynai）。完整评测结果已在官方GitHub仓库公开，便于即时查看发布的性能数据（来源：GitHub gensyn-ai/delphi-middleweight-reasoning）。对于参与Delphi基准市场的交易者，最新结果可用于依据已上线的市场结构对与该基准结果相关的持仓进行校准（来源：X/@gensynai；来源：GitHub gensyn-ai/delphi-middleweight-reasoning）。

来源

2025-12-11
18:37

OpenAI 推出 GPT-5.2 基准表现非常强劲 — AI 概念币 RNDR 与 FET 的交易要点

据 @gdb 称，OpenAI 已发布 GPT-5.2 并称其基准测试表现非常强劲，同时提供了官方详情页面以供确认（来源：@gdb；来源：OpenAI）。就交易层面，建议重点关注被归类为 AI 与大数据板块的加密资产，例如 Render RNDR 与 Fetch.ai FET，以便跟踪板块资金流与相对强弱（来源：CoinGecko）。在发布窗口前后，建议监测 RNDR 与 FET 的现货成交量、资金费率与未平仓合约，以评估杠杆定位与潜在波动扩张（来源：Binance Futures 市场数据；来源：Bybit 衍生品数据）。

来源

2025-12-09
19:47

Anthropic披露SGTM研究局限：小模型与代理评估、无法阻止上下文攻击——交易影响解析

据@AnthropicAI称，该SGTM研究基于简化环境，使用小模型并采用代理评估而非标准基准测试，因而对生产级系统的外推有限，来源：https://twitter.com/AnthropicAI/status/1998479616651178259。据@AnthropicAI称，SGTM无法阻止由对手在提示中直接提供信息的上下文攻击，显示模型滥用风险仍未解决，来源：https://twitter.com/AnthropicAI/status/1998479616651178259。据@AnthropicAI称，该帖未提供标准基准结果，也未提及金融或加密资产，本次更新未指向任何直接的加密市场催化因素，来源：https://twitter.com/AnthropicAI/status/1998479616651178259。

来源

2025-12-01
14:14

Runway发布AI视频模型，在关键基准上超越谷歌与OpenAI：交易者需知要点

根据@CNBC，Runway推出新的AI视频模型，并在一项关键基准测试上击败谷歌和OpenAI的产品，此信息来自CNBC官方X账号于2025年12月1日发布的帖子，来源：CNBC。根据@CNBC，该帖子仅强调在单一基准上的相对领先，未提供更多基准细节或与加密市场的关联信息，来源：CNBC。

来源

2025-10-07
19:45

谷歌DeepMind发布Gemini 2.5 Computer Use：浏览器原生AI代理更快速度与新基准表现

据@GoogleDeepMind称，Gemini 2.5 Computer Use 模型可像人类一样操作浏览器，支持代理在线点击、滚动与输入；来源：@GoogleDeepMind，2025年10月7日。据@GoogleDeepMind称，该模型基于Gemini的视觉理解与推理能力，在多项基准上树立了新标准并具备更快速度；来源：@GoogleDeepMind，2025年10月7日。据@GoogleDeepMind称，该公告未提供发布时间、接入方式、定价信息，亦未提及与加密交易平台或交易工具的集成；来源：@GoogleDeepMind，2025年10月7日。据@GoogleDeepMind称，公告未直接涉及加密货币市场或交易功能，因此基于已披露信息，任何具体的加密市场影响尚未得到确认；来源：@GoogleDeepMind，2025年10月7日。

来源

2025-08-20
18:32

LLoCO模型压缩突破：以30倍更少Token匹配32k上下文，并取得+13.64分提升

根据@hyperbolic_labs，LLoCO在所有测试数据集上均超越基线方法（来源：@hyperbolic_labs，2025年8月20日）。根据@hyperbolic_labs，该方法在使用30倍更少的token情况下匹配32k上下文模型表现（来源：@hyperbolic_labs，2025年8月20日）。根据@hyperbolic_labs，相比未微调的压缩方案，LLoCO带来+13.64分的评分提升（来源：@hyperbolic_labs，2025年8月20日）。该帖子未提供与加密货币或市场影响相关的信息（来源：@hyperbolic_labs，2025年8月20日）。

来源

2025-08-14
16:12

GPT-5 在精灵宝可梦代理演示中较 o3 提速3倍——AI交易者关注的关键基准

根据 @gdb 的信息，GPT-5 在公开演示中游玩精灵宝可梦时，相比 o3 实现约3倍更快的游戏进度，提供了清晰的任务级代理性能基准（来源：@gdb 于 X 平台，2025年8月14日）。该帖未披露评测流程、算力或训练细节，因此无法据此评估可复现性与跨模型可比性（来源：@gdb 于 X 平台，2025年8月14日）。文中未提及加密货币、代币或链上集成，显示帖子未声明任何直接的加密市场影响（来源：@gdb 于 X 平台，2025年8月14日）。交易者可将“3倍进度”作为后续跨游戏或任务的代理演示对比参考，同时需注意该结论来自单一公开演示片段（来源：@gdb 于 X 平台，2025年8月14日）。

来源

2025-03-12
17:18

谷歌DeepMind通过Gemini 2.0模型推进机器人技术

据Sundar Pichai称，谷歌DeepMind正在通过其新的Gemini 2.0模型推进机器人技术，展示了在两个关键基准上的最先进性能。这一发展代表了将AI进步转化为物理世界应用的重要一步，可能影响依赖机器人和AI集成的行业。

来源

2025-03-12
15:07

Gemini Robotics在新场景中展示出卓越的泛化能力

根据Google DeepMind的消息，Gemini Robotics展示了向新场景泛化的能力，完成了训练中未见过的任务。平均而言，它在综合泛化基准测试中的表现比其他最先进的系统提高了一倍以上，这表明AI在适应性和效率方面取得了显著进步。

来源

2025-03-12
15:04

Gemini 2.0机器人模型展示最先进性能

根据Sundar Pichai的说法，最新的Gemini 2.0机器人模型在将AI应用于物理世界方面取得了显著进展，展示了在两个关键基准上的最先进性能。这一发展可能对依赖机器人和AI的行业产生影响，进而可能影响相关的加密货币市场。

来源

2025-02-18
15:07

Grok-3 在预测市场中以 74% 的概率领先 AI 市场

根据 @Kalshi 的说法，预测市场目前显示 Grok 本月成为全球领先 AI 的概率为 74%。这一激增是 Grok-3 发布后的结果，使 Grok 的几率增加了 50 个百分点。投资者应注意，Grok-3 的基准测试结果表现优异，可能影响 AI 市场动态和相关交易策略。

来源

2025-02-07
04:00

OpenAI推出o3-mini模型，提高推理准确性并提供灵活的努力水平

根据DeepLearning.AI的消息，OpenAI推出了o3-mini，这是其o1推理模型的后续产品，旨在提高编程、数学和科学任务的准确性。交易者应注意，o3-mini提供可选择的“努力”水平，用户可以在成本、速度和推理深度之间进行优化，这可能影响计算资源配置策略。尽管o3-mini在基准测试中优于o1-mini，但其性能尚未达到原始o1模型的水平，这可能影响对AI技术市场的投资决策。

来源

2025-02-05
11:34

Photoroom的背景去除技术在基准测试中被证明优越

根据@matthieurouif，Photoroom的背景去除技术通过开源基准测试被验证为全球最佳。该基准通过投票对先进模型进行排名，确保数据的可靠性和可信度。此类经过验证的技术如果集成到加密货币交易平台以增强视觉数据呈现，可能会影响交易策略并提升Photoroom的市场价值。

来源

关于 基准测试 的快讯列表

关于基准测试的快讯列表