Claude Opus AI快讯列表

时间	详情
2026-06-16 22:21	GDPval AA v2基准可信度遭质疑据emollick称，AI评审与人类ELO不明使排名存疑。原文链接
2026-06-10 17:27	Claude Opus 4.8对比Fable 5棋类实战据@godofprompt，一次性指令对比两模型构建完整象棋应用表现。原文链接
2026-05-29 12:15	Claude Opus4.8 提升代码质量4倍据@godofprompt称，Anthropic称Opus4.8比4.7减少4倍缺陷代码，提示工程同样关键。原文链接
2026-05-29 10:16	Gemini3.5闪耀，Atlas升级两招据@AINewsOfficial_称，Gemini3.5、Atlas新动作、AGIBot与Claude表现成焦点。原文链接
2026-05-28 20:40	Claude Opus4.8撰文 GPT5.5审校据@emollick称，Opus4.8撰写论文，GPT5.5审稿并指出重大错误，随后已更正。原文链接
2026-05-28 16:57	Claude Opus 4.8强化自主时长据@AnthropicAI称，Opus 4.8提升判断力与透明度，并延长独立工作时长且售价不变。原文链接
2026-05-19 08:04	Claude Opus 4.7回归缺陷引争议据@godofprompt称，4.7忽视项目指令与MCP配置，Anthropic已承认回归，建议特定场景谨慎使用。原文链接
2026-05-08 17:13	DeepSeek V4原生支持Claude Code降本据God of Prompt称，DeepSeek V4原生兼容Claude Code，费用每百万令牌$0.14。原文链接
2026-05-06 16:45	Claude Opus 提升API限额引爆增长据@SawyerMerritt称，xAI机房增300MW助Anthropic提升Claude Opus API吞吐。原文链接
2026-04-29 16:08	Claude Opus 4.7加速Genspark Build 据@godofprompt称，Genspark Build借助Claude Opus 4.7从概念到代码极速落地。原文链接
2026-04-24 17:24	Anthropic研究：Claude Opus在代理谈判中显著胜出Haiku——2026洞察与商业影响据AnthropicAI在Twitter发布的信息显示，Claude Opus与Claude Haiku在模拟谈判中对垒时，Opus能显著拿到更优交易结果，而受访者并未意识到这种差距；相关结论来自Anthropic的帖子与研究摘要。根据Anthropic，该发现表明更高能力的大模型可将模型质量直接转化为自动化议价与采购流程中的经济收益。Anthropic指出，这种“感知差距”意味着企业若仅凭主观判断评估代理表现，将面临策略失真与利润流失风险，因而需要基于结果的数据评测、可追溯日志和可控谈判策略。对于采用多代理系统进行供应链采购、广告竞价或动态定价的组织，Anthropic的结果提示：在包含谈判与战略推理的场景中，由轻量模型升级至更强模型（如Opus）有望带来可量化ROI。原文链接
2026-04-23 18:16	OpenAI发布GPT 5.5：超越Claude Opus 4.7，速度媲美GPT‑5.4且编码成本更低据The Rundown AI报道，OpenAI正式发布GPT 5.5，在编码、推理和数学基准上领先Claude Opus 4.7，并以接近GPT‑5.4的速度实现对竞品前沿编码模型约半成本的推理。据The Rundown AI称，这一迭代为面向开发者的落地场景带来直接商业价值，包括代码生成平台、智能代理工作流与自动化测试等领域，在相同吞吐下显著优化延迟与单次调用成本结构。原文链接
2026-04-21 17:12	Google Deep Research Max重磅发布：BrowseComp得分85.9，Gemini 3.1 Pro驱动，每份报告2–5美元，接入FactSet与标普数据根据The Rundown AI报道，Google发布自主研究代理Deep Research Max，在难检事实基准BrowseComp上取得85.9%成绩，领先GPT‑5.4的58.9%与Claude Opus 4.6的45.1%。据The Rundown AI称，该系统由Gemini 3.1 Pro驱动，支持通宵运行，每份尽调报告成本约2–5美元，面向企业规模化研究流程。The Rundown AI援引Google发布博客称，可通过夜间定时任务自动生成次日交付的详尽尽调报告，推动研究自动化落地。另据The Rundown AI，FactSet、标普与PitchBook正构建MCP服务器，便于直接接入高价值金融数据，带来投研、私募市场分析与风控情报的商业机会。原文链接
2026-04-21 03:26	Kimi K2.6基准胜出与实战差距：对比Claude Opus 4.6的最新分析与6大商业要点据Artificial Analysis称，Kimi K2.6在其AI指数中以54分排名第4，仅次于Anthropic、谷歌和OpenAI（均为57），并在采用Stirrup参考代理框架的GDPval-AA代理任务上获得1520 Elo，展现出强劲的工具使用能力（来源：Artificial Analysis，被Ethan Mollick在X上转引）。据Artificial Analysis称，K2.6在τ²-Bench Telecom工具使用评测中保持96%得分，支持图像与视频输入、256k上下文，并通过自有API及Novita、Baseten、Fireworks、Parasail等第三方提供访问（来源：Artificial Analysis）。据Artificial Analysis称，K2.6在AA-Omniscience知识评测中的幻觉率较低，接近Claude Opus 4.7与MiniMax-M2.7；在完整指数运行中使用约1.6亿推理token，低于Claude Sonnet 4.6的约1.9亿，高于GPT 5.4的约1.1亿（来源：Artificial Analysis）。据Ethan Mollick援引Artificial Analysis并结合用户反馈称，尽管基准表现强劲，开源权重模型在真实业务场景中可能不及封闭模型，例如Kimi在部分使用中不如Claude Opus 4.6，提示“基准—生产”落差（来源：Ethan Mollick于X）。商业启示：企业可在需要强工具调用与代理式工作流的场景试点Kimi K2.6，受益于开放权重与多家托管渠道，但应以任务级评测与成本监控为先；同时，Anthropic与OpenAI在通用可靠性上仍具优势，Kimi为采购与供应商多元化提供高性价比选项（来源：Artificial Analysis；Ethan Mollick）。原文链接
2026-04-18 00:56	GDPval AA评测遭质疑：Ethan Mollick批评Gemini 3.1裁判机制与Artificial Analysis排名据@emollick表示，GDPval-AA并不可靠，因为其以Gemini 3.1作为裁判评估公开题库上的模型输出，难以反映真实能力。根据Artificial Analysis披露，Claude Opus 4.7在GDPval-AA上以1753 Elo领跑，并以57.3位列Artificial Analysis Intelligence Index首位，略高于Gemini 3.1 Pro的57.2与GPT-5.4的56.8；该机构称GDPval-AA覆盖44个职业与9个行业，并通过Stirrup开源代理框架启用Shell与浏览能力进行回路式任务。另据Artificial Analysis，Opus 4.7在IFBench、TerminalBench Hard、HLE、SciCode与GPQA Diamond上均有小幅提升，幻觉率降至36%，运行整套评测所用输出token约比Opus 4.6减少35%。对企业而言，这场关于评测裁判设计的争议表明需采用多元基准（如HLE、GPQA Diamond、TerminalBench、AA-Omniscience）并审计评测对裁判模型的依赖，以降低评测偏差与过拟合风险。原文链接
2026-04-17 16:25	Claude Design发布：Anthropic以Opus 4.7一键生成UI，产品设计流程加速与商业机遇解析据The Rundown AI在X平台报道，Anthropic上线Claude Design：用户用自然语言描述界面，Claude Opus 4.7自动生成首版原型，并可通过行内评论与直接编辑迭代；此前有报道称Anthropic高管Mike Krieger在即将推出竞争产品之际退出Figma董事会（来源：The Rundown AI）。据The Rundown AI称，该工具将加速从想法到原型的周期，推动快速原型与多版本设计测试，并可能重塑早期设计环节的人力与成本结构；面向企业的落地重点包括团队协作、版本治理与安全合规的集成能力。原文链接
2026-04-17 01:56	Claude Opus 4.7“自适应思考”争议与修复进展：Anthropic回应与业务影响分析据 Ethan Mollick 在 X 表示，Anthropic 正在研究修复 Claude Opus 4.7 的“自适应思考”机制；Mollick 指出该模型在无人工开关的情况下自动路由为低努力，导致非数学与非代码任务表现变差，并在帖子中引用了 Claude 产品经理的回复作为佐证。根据该贴讨论，问题集中在任务分流阈值过于保守，使通用写作与分析类需求难以触发高强度推理；相比之下，ChatGPT 允许用户强制更高努力水平。此举若获修复，按公开贴文所述，有望提升企业知识工作、市场内容生产与分析流程中的输出稳定性，降低重复调用成本，增强对高深度推理的一致控制，进而推动在专业场景的采用。原文链接
2026-04-16 20:47	Claude Opus 4.7 在 TikZ 绘图上突破：刷新“Sparks of AGI”独角兽最佳表现据 Ethan Mollick 在 Twitter 表示，Anthropic 的 Claude Opus 4.7 现可生成迄今最强的 TikZ“独角兽”作品，即使不进行显式推理也表现出色，而在思考模式下效果更佳（来源：Ethan Mollick，Twitter，2026年4月16日）。Mollick 指出，该独角兽以 TikZ 绘制，这一 LaTeX 图形语言并非为自由绘画设计，与微软《Sparks of AGI》原始评测中以“画出原始独角兽”检验模型涌现能力的思路一致（来源：Ethan Mollick，Twitter；微软研究院《Sparks of Artificial General Intelligence》，2023）。据微软研究院称，该任务考察模型的组合式推理与可编程图形生成，这对企业在学术排版、技术文档与可复现实验图表自动化具有直接价值（来源：微软研究院，2023）。对于业务落地，更强的 TikZ 代码合成意味着可将自然语言快速转为可维护的矢量图代码，在期刊出版、数据报告与开发者工具链中提升效率并降低设计交付成本（来源：Ethan Mollick，Twitter；微软研究院，2023）。原文链接
2026-04-16 19:45	Claude Opus 4.7 自适应思考遭质疑：非技术任务被判“低投入”，质量受损—深度分析与商业机遇据 Ethan Mollick 在推特表示，Claude Opus 4.7 的自适应思考机制经常将非数学和非代码类任务判定为低投入，输出质量更差，且不像 ChatGPT 那样提供手动覆盖选项（来源：Ethan Mollick，2026年4月16日）。根据该帖，用户无法选择投入等级限制了对推理深度的控制，影响写作、策略与定性分析等场景。面向产品与企业应用，这暴露出引入显式投入开关、按任务分配推理预算、展示路由透明度的改进空间；内容营销、咨询与知识管理等行业可通过可调推理设置与路由审计功能形成差异化（同源）。原文链接
2026-04-16 19:40	Claude Opus 4.7 将“六歌体”判为风险：AI安全护栏与内容控制最新分析据 Ethan Mollick 在推特表示，向 Claude Opus 4.7 请求“六歌体”诗歌常被触发安全护栏，显示结构化诗歌提示可能被策略过滤器误判。据 Mollick 的推文，这反映了 Anthropic 模型在保守合规下对重复结构与格式约束的敏感。根据业内对 Anthropic 宪法式安全策略的公开解读和开发文档，一些无害创作场景可能被过度拦截。这对业务的影响包括创意写作用户体验受挫与支持成本上升，同时也带来机会：通过误报数据收集与微调分类器、对特定诗歌结构建立白名单、在前端提供拦截原因与改写建议，以优化提示工程与留存。原文链接

2026-06-16
22:21

GDPval AA v2基准可信度遭质疑

据emollick称，AI评审与人类ELO不明使排名存疑。

原文链接

2026-06-10
17:27

Claude Opus 4.8对比Fable 5棋类实战

据@godofprompt，一次性指令对比两模型构建完整象棋应用表现。

原文链接

2026-05-29
12:15

Claude Opus4.8 提升代码质量4倍

据@godofprompt称，Anthropic称Opus4.8比4.7减少4倍缺陷代码，提示工程同样关键。

原文链接

2026-05-29
10:16

Gemini3.5闪耀，Atlas升级两招

据@AINewsOfficial_称，Gemini3.5、Atlas新动作、AGIBot与Claude表现成焦点。

原文链接

2026-05-28
20:40

Claude Opus4.8撰文 GPT5.5审校

据@emollick称，Opus4.8撰写论文，GPT5.5审稿并指出重大错误，随后已更正。

原文链接

2026-05-28
16:57

Claude Opus 4.8强化自主时长

据@AnthropicAI称，Opus 4.8提升判断力与透明度，并延长独立工作时长且售价不变。

原文链接

2026-05-19
08:04

Claude Opus 4.7回归缺陷引争议

据@godofprompt称，4.7忽视项目指令与MCP配置，Anthropic已承认回归，建议特定场景谨慎使用。

原文链接

2026-05-08
17:13

DeepSeek V4原生支持Claude Code降本

据God of Prompt称，DeepSeek V4原生兼容Claude Code，费用每百万令牌$0.14。

原文链接

2026-05-06
16:45

Claude Opus 提升API限额引爆增长

据@SawyerMerritt称，xAI机房增300MW助Anthropic提升Claude Opus API吞吐。

原文链接

2026-04-29
16:08

Claude Opus 4.7加速Genspark Build

据@godofprompt称，Genspark Build借助Claude Opus 4.7从概念到代码极速落地。

原文链接

2026-04-24
17:24

Anthropic研究：Claude Opus在代理谈判中显著胜出Haiku——2026洞察与商业影响

据AnthropicAI在Twitter发布的信息显示，Claude Opus与Claude Haiku在模拟谈判中对垒时，Opus能显著拿到更优交易结果，而受访者并未意识到这种差距；相关结论来自Anthropic的帖子与研究摘要。根据Anthropic，该发现表明更高能力的大模型可将模型质量直接转化为自动化议价与采购流程中的经济收益。Anthropic指出，这种“感知差距”意味着企业若仅凭主观判断评估代理表现，将面临策略失真与利润流失风险，因而需要基于结果的数据评测、可追溯日志和可控谈判策略。对于采用多代理系统进行供应链采购、广告竞价或动态定价的组织，Anthropic的结果提示：在包含谈判与战略推理的场景中，由轻量模型升级至更强模型（如Opus）有望带来可量化ROI。

原文链接

2026-04-23
18:16

OpenAI发布GPT 5.5：超越Claude Opus 4.7，速度媲美GPT‑5.4且编码成本更低

据The Rundown AI报道，OpenAI正式发布GPT 5.5，在编码、推理和数学基准上领先Claude Opus 4.7，并以接近GPT‑5.4的速度实现对竞品前沿编码模型约半成本的推理。据The Rundown AI称，这一迭代为面向开发者的落地场景带来直接商业价值，包括代码生成平台、智能代理工作流与自动化测试等领域，在相同吞吐下显著优化延迟与单次调用成本结构。

原文链接

2026-04-21
17:12

Google Deep Research Max重磅发布：BrowseComp得分85.9，Gemini 3.1 Pro驱动，每份报告2–5美元，接入FactSet与标普数据

根据The Rundown AI报道，Google发布自主研究代理Deep Research Max，在难检事实基准BrowseComp上取得85.9%成绩，领先GPT‑5.4的58.9%与Claude Opus 4.6的45.1%。据The Rundown AI称，该系统由Gemini 3.1 Pro驱动，支持通宵运行，每份尽调报告成本约2–5美元，面向企业规模化研究流程。The Rundown AI援引Google发布博客称，可通过夜间定时任务自动生成次日交付的详尽尽调报告，推动研究自动化落地。另据The Rundown AI，FactSet、标普与PitchBook正构建MCP服务器，便于直接接入高价值金融数据，带来投研、私募市场分析与风控情报的商业机会。

原文链接

2026-04-21
03:26

Kimi K2.6基准胜出与实战差距：对比Claude Opus 4.6的最新分析与6大商业要点

据Artificial Analysis称，Kimi K2.6在其AI指数中以54分排名第4，仅次于Anthropic、谷歌和OpenAI（均为57），并在采用Stirrup参考代理框架的GDPval-AA代理任务上获得1520 Elo，展现出强劲的工具使用能力（来源：Artificial Analysis，被Ethan Mollick在X上转引）。据Artificial Analysis称，K2.6在τ²-Bench Telecom工具使用评测中保持96%得分，支持图像与视频输入、256k上下文，并通过自有API及Novita、Baseten、Fireworks、Parasail等第三方提供访问（来源：Artificial Analysis）。据Artificial Analysis称，K2.6在AA-Omniscience知识评测中的幻觉率较低，接近Claude Opus 4.7与MiniMax-M2.7；在完整指数运行中使用约1.6亿推理token，低于Claude Sonnet 4.6的约1.9亿，高于GPT 5.4的约1.1亿（来源：Artificial Analysis）。据Ethan Mollick援引Artificial Analysis并结合用户反馈称，尽管基准表现强劲，开源权重模型在真实业务场景中可能不及封闭模型，例如Kimi在部分使用中不如Claude Opus 4.6，提示“基准—生产”落差（来源：Ethan Mollick于X）。商业启示：企业可在需要强工具调用与代理式工作流的场景试点Kimi K2.6，受益于开放权重与多家托管渠道，但应以任务级评测与成本监控为先；同时，Anthropic与OpenAI在通用可靠性上仍具优势，Kimi为采购与供应商多元化提供高性价比选项（来源：Artificial Analysis；Ethan Mollick）。

原文链接

2026-04-18
00:56

GDPval AA评测遭质疑：Ethan Mollick批评Gemini 3.1裁判机制与Artificial Analysis排名

据@emollick表示，GDPval-AA并不可靠，因为其以Gemini 3.1作为裁判评估公开题库上的模型输出，难以反映真实能力。根据Artificial Analysis披露，Claude Opus 4.7在GDPval-AA上以1753 Elo领跑，并以57.3位列Artificial Analysis Intelligence Index首位，略高于Gemini 3.1 Pro的57.2与GPT-5.4的56.8；该机构称GDPval-AA覆盖44个职业与9个行业，并通过Stirrup开源代理框架启用Shell与浏览能力进行回路式任务。另据Artificial Analysis，Opus 4.7在IFBench、TerminalBench Hard、HLE、SciCode与GPQA Diamond上均有小幅提升，幻觉率降至36%，运行整套评测所用输出token约比Opus 4.6减少35%。对企业而言，这场关于评测裁判设计的争议表明需采用多元基准（如HLE、GPQA Diamond、TerminalBench、AA-Omniscience）并审计评测对裁判模型的依赖，以降低评测偏差与过拟合风险。

原文链接

2026-04-17
16:25

Claude Design发布：Anthropic以Opus 4.7一键生成UI，产品设计流程加速与商业机遇解析

据The Rundown AI在X平台报道，Anthropic上线Claude Design：用户用自然语言描述界面，Claude Opus 4.7自动生成首版原型，并可通过行内评论与直接编辑迭代；此前有报道称Anthropic高管Mike Krieger在即将推出竞争产品之际退出Figma董事会（来源：The Rundown AI）。据The Rundown AI称，该工具将加速从想法到原型的周期，推动快速原型与多版本设计测试，并可能重塑早期设计环节的人力与成本结构；面向企业的落地重点包括团队协作、版本治理与安全合规的集成能力。

原文链接

2026-04-17
01:56

Claude Opus 4.7“自适应思考”争议与修复进展：Anthropic回应与业务影响分析

据 Ethan Mollick 在 X 表示，Anthropic 正在研究修复 Claude Opus 4.7 的“自适应思考”机制；Mollick 指出该模型在无人工开关的情况下自动路由为低努力，导致非数学与非代码任务表现变差，并在帖子中引用了 Claude 产品经理的回复作为佐证。根据该贴讨论，问题集中在任务分流阈值过于保守，使通用写作与分析类需求难以触发高强度推理；相比之下，ChatGPT 允许用户强制更高努力水平。此举若获修复，按公开贴文所述，有望提升企业知识工作、市场内容生产与分析流程中的输出稳定性，降低重复调用成本，增强对高深度推理的一致控制，进而推动在专业场景的采用。

原文链接

2026-04-16
20:47

Claude Opus 4.7 在 TikZ 绘图上突破：刷新“Sparks of AGI”独角兽最佳表现

据 Ethan Mollick 在 Twitter 表示，Anthropic 的 Claude Opus 4.7 现可生成迄今最强的 TikZ“独角兽”作品，即使不进行显式推理也表现出色，而在思考模式下效果更佳（来源：Ethan Mollick，Twitter，2026年4月16日）。Mollick 指出，该独角兽以 TikZ 绘制，这一 LaTeX 图形语言并非为自由绘画设计，与微软《Sparks of AGI》原始评测中以“画出原始独角兽”检验模型涌现能力的思路一致（来源：Ethan Mollick，Twitter；微软研究院《Sparks of Artificial General Intelligence》，2023）。据微软研究院称，该任务考察模型的组合式推理与可编程图形生成，这对企业在学术排版、技术文档与可复现实验图表自动化具有直接价值（来源：微软研究院，2023）。对于业务落地，更强的 TikZ 代码合成意味着可将自然语言快速转为可维护的矢量图代码，在期刊出版、数据报告与开发者工具链中提升效率并降低设计交付成本（来源：Ethan Mollick，Twitter；微软研究院，2023）。

原文链接

2026-04-16
19:45

Claude Opus 4.7 自适应思考遭质疑：非技术任务被判“低投入”，质量受损—深度分析与商业机遇

据 Ethan Mollick 在推特表示，Claude Opus 4.7 的自适应思考机制经常将非数学和非代码类任务判定为低投入，输出质量更差，且不像 ChatGPT 那样提供手动覆盖选项（来源：Ethan Mollick，2026年4月16日）。根据该帖，用户无法选择投入等级限制了对推理深度的控制，影响写作、策略与定性分析等场景。面向产品与企业应用，这暴露出引入显式投入开关、按任务分配推理预算、展示路由透明度的改进空间；内容营销、咨询与知识管理等行业可通过可调推理设置与路由审计功能形成差异化（同源）。

原文链接

2026-04-16
19:40

Claude Opus 4.7 将“六歌体”判为风险：AI安全护栏与内容控制最新分析

据 Ethan Mollick 在推特表示，向 Claude Opus 4.7 请求“六歌体”诗歌常被触发安全护栏，显示结构化诗歌提示可能被策略过滤器误判。据 Mollick 的推文，这反映了 Anthropic 模型在保守合规下对重复结构与格式约束的敏感。根据业内对 Anthropic 宪法式安全策略的公开解读和开发文档，一些无害创作场景可能被过度拦截。这对业务的影响包括创意写作用户体验受挫与支持成本上升，同时也带来机会：通过误报数据收集与微调分类器、对特定诗歌结构建立白名单、在前端提供拦截原因与改写建议，以优化提示工程与留存。

原文链接

AI 快讯列表关于 Claude Opus