AI 快讯列表关于 基准测试
| 时间 | 详情 |
|---|---|
| 01:26 |
GLM5.2 Max对决Fable诗歌表现
据emollick称,GLM5.2擅长约束合规,Fable以主题化消失元音取胜。 |
|
2026-06-16 17:23 |
OpenAI评测改革引领新基准
据OpenAI于X称,将改进评测以预测模型进展并应对基准饱和与投机。 |
|
2026-06-15 15:44 |
Claude3.5横扫新基准榜单
据God of Prompt称,Anthropic在新基准上领先,显示Claude3.5推理评测优势。 |
|
2026-06-11 17:35 |
Claude3深度解析柯勒律治续写挑战
据emollick称,Claude续写古舟子思考10分钟,链式推理复杂但偏直白。 |
|
2026-06-11 14:17 |
Hugging Face重启Papers With Code数据集
据KyeGomezB称,Hugging Face收购域名与数据集,平台回归可用于基准与检索。 |
|
2026-06-10 12:54 |
Project Tapestry联结开放AI研究
据@ylecun称,该计划号召研究者共建开放基准与工具。 |
|
2026-06-09 18:10 |
Claude Fable5 领跑基准大跃升
据karpathy称,Fable5在多项基准SOTA,长时复杂任务表现出色,并基于Mythos加入更强安全防护。 |
|
2026-06-09 18:10 |
Claude Fable 5拿下SOTA基准
据karpathy称,Fable 5在多项基准达SOTA,并在长时复杂任务上大幅领先。 |
|
2026-05-30 23:34 |
OpenAI与Anthropic加速模型突破
据@emollick称,两家公司模型多次在Artificial Analysis指数提升3分以上。 |
|
2026-05-20 18:27 |
机器人基准月球漫步测试受挫
据TheRundownAI称,该月球漫步基准仍在开发中。 |
|
2026-05-19 17:59 |
Gemini 3.5 Flash极速突破
据sundarpichai称,新模型上线且较前沿模型快4倍,并超越3.1 Pro基准。 |
|
2026-05-19 17:53 |
Gemini 3.5 Flash 重磅超越3.1 Pro
据@OriolVinyalsML称,3.5 Flash更快更强,基准大多胜过3.1 Pro。 |
|
2026-05-09 01:32 |
Claude Mythos评估达16小时窗口
据@emollick称,METR评估Claude Mythos任务中位时长16小时,处于可测上限。 |
|
2026-05-05 23:10 |
GPQA基准显示GPT 5.5 Instant跃升
据emollick称,OpenAI免费GPT 5.5 Instant在GPQA达晚2025付费水平。 |
|
2026-05-03 22:10 |
人工分析指数引发2026争议
据emollick称AA指数不适合趋势;chatgpt21保守推演GPT至2029年达90分。 |
|
2026-04-29 19:12 |
GPT5.5对比Claude4.7基准深度解析
据God of Prompt称,逐项基准评测显示胜负因任务而异。 |
|
2026-04-27 02:19 |
2026年AI S曲线前景:能有多强、会多快?基于证据的分析与商业机会
据Ethan Mollick在X平台所述,AI的根本问题是“能有多强、会多快”,以S曲线描述能力与速度,并决定就业与风险等后续议题。根据MIT学者Shakked Noy与Whitney Zhang的研究,GPT4在受控实验中将写作效率提升约40%,显示能力正快速上行。Anthropic称Claude3 Opus在推理基准上达顶级表现,而OpenAI表示GPT4 Turbo在长上下文与成本效率上提升,表明质量与可及性加速改进。麦肯锡指出生成式AI可为企业创造万亿美元级价值,短期在客服、营销与软件工程最易变现。基于S曲线视角,企业应优先在模型已超越人类基线的场景落地,并据OpenAI与Anthropic模型卡建议,强化检索、评测与安全护栏以稳定可控扩展。 |
|
2026-04-24 18:14 |
重磅:国际仿人机器人标准化联盟发布—LiveX AI联合创始人Brian Koo主题演讲
据OpenMind在X平台(OpenMind_AGI)发布的信息,LiveX AI的Brian Koo将发表《国际仿人机器人标准化联盟介绍》的主题演讲,推进仿人机器人在安全、互操作性与评测方面的统一标准。据OpenMind报道,该联盟将聚焦跨厂商兼容、运动与操作测试套件、数据与接口规范等关键环节,助力制造、物流与服务业的规模化落地。据OpenMind称,建立统一标准可缩短企业集成周期与成本,加速合规认证流程,并为采购方在执行器参数、感知方案与控制策略对比上提供清晰框架。OpenMind表示,此举也使LiveX AI顺应行业以基准测试与通用API提升可靠性、缩短企业试点变现周期的趋势。 |
|
2026-04-23 19:27 |
GPT-5.5在ARC-AGI-2达85%:最新基准分析与商业影响
据X账号God of Prompt称,GPT-5.5在ARC-AGI-2基准上取得85%成绩;但目前尚无OpenAI或基准维护方的官方文件与复现实验细节,包括评测流程、数据污染控制与算力设置,无法独立核验(来源:该推文)。从行业应用看,在官方确认前,企业应将该结果视为初步信息,并在采购与产品路线中优先采用经标准化、可复现实验与防污染的评测。若日后得到验证,该成绩意味着在对抗式推理与泛化上的跃升,可增强企业级代理流程、代码生成稳定性与多步骤工具调用,从而缩短工程与数据分析协作的落地周期,但前提是得到权威来源的可重复证明与清晰的许可与安全说明。 |
|
2026-04-16 18:38 |
Anthropic 推出 Opus 4.7 Auto 模式:长时任务免确认的最新生产力突破
据 @bcherny 在 X 上表示,Anthropic 的 Opus 4.7 新增 Auto 模式,移除重复的权限确认,可在无人看护下执行深度研究、大规模代码重构、多步骤功能开发与性能基准迭代等长时工作流。该帖称,此举简化了智能体式执行循环(规划、工具调用、校验),减少人工打断,显著提升工程与数据团队的交付效率与专注度;对产品与运营而言,也为基于基准的自动化迭代与后台任务提供了新机会。根据同一来源,核心价值在于更持续的自主执行与更少打断,同时通过会话级控制维持对齐与安全边界。 |