TiKZ AI快讯列表

时间	详情
2026-04-23 19:09	GPT-5.5逼近TikZ独角兽基准：多模态推理与代码生成最新分析据Sam Altman在X平台转发并引用Sebastien Bubeck的帖文，GPT-5.5在社区“TikZ独角兽”测试上已非常接近满分，通过可运行的TikZ代码重现图形，显示出更强的符号推理与结构化代码生成能力。按照Sebastien Bubeck在X上的说明，该代码可公开验证，这表明模型在多模态对齐与几何理解方面取得显著进展。根据上述来源，这一提升将加速技术文档、自动绘图、学术排版、以及类CAD图形生成等企业场景落地；尽管尚未完全“吃满”该基准，但接近通过的表现已为LaTeX自动化、开发者工具与数据可视化助手带来可用性与效率提升。原文链接
2026-04-21 02:10	Kimi 2.6 Thinking深度测评：开放权重推理亮点与不足，对比闭源SoTA的74页思维轨迹与代码示例据Ethan Mollick在X平台表示，Kimi 2.6 Thinking在开放权重模型中展现出较强推理能力，但相较闭源SoTA仍有差距：在Lem测试中生成了74页思维轨迹但答案仅为中等；同时在TiKZ独角兽与twigl海浪中新哥特城市着色器等任务上表现尚可（来源：Ethan Mollick）。据Ethan Mollick，这种可追溯的长链路思维记录有助于企业的合规与审计，但最终答案质量与工程打磨仍需提升，建议在关键推理与代码生成场景与闭源模型并行评估与基准对比。原文链接
2026-04-16 20:47	Claude Opus 4.7 在 TikZ 绘图上突破：刷新“Sparks of AGI”独角兽最佳表现据 Ethan Mollick 在 Twitter 表示，Anthropic 的 Claude Opus 4.7 现可生成迄今最强的 TikZ“独角兽”作品，即使不进行显式推理也表现出色，而在思考模式下效果更佳（来源：Ethan Mollick，Twitter，2026年4月16日）。Mollick 指出，该独角兽以 TikZ 绘制，这一 LaTeX 图形语言并非为自由绘画设计，与微软《Sparks of AGI》原始评测中以“画出原始独角兽”检验模型涌现能力的思路一致（来源：Ethan Mollick，Twitter；微软研究院《Sparks of Artificial General Intelligence》，2023）。据微软研究院称，该任务考察模型的组合式推理与可编程图形生成，这对企业在学术排版、技术文档与可复现实验图表自动化具有直接价值（来源：微软研究院，2023）。对于业务落地，更强的 TikZ 代码合成意味着可将自然语言快速转为可维护的矢量图代码，在期刊出版、数据报告与开发者工具链中提升效率并降低设计交付成本（来源：Ethan Mollick，Twitter；微软研究院，2023）。原文链接
2026-04-09 00:51	Gemini 3.1用TikZ重现“独角兽”：多模态推理与代码生成能力最新分析据Ethan Mollick在X上的贴文称，谷歌的Gemini 3.1使用并不适合绘图的TikZ语言生成了可辨识的独角兽，这与早期“Sparks of AGI”基准中的“原始独角兽”示例相呼应（来源：Ethan Mollick）。据Mollick报道，这一结果显示Gemini 3.1在代码合成与视觉推理的协同上有提升，可用于企业级的程序化制图、LaTeX自动化与数据可视化流程。Mollick指出，能重现实验基准意味着其在指令遵循、工具使用与组合泛化方面进步，为文档自动化、技术出版与类CAD图形等对可控文本到图形生成有需求的场景带来商业机会。原文链接
2026-03-12 01:47	OpenRouter神秘模型Hunter Alpha测评：Lem测试与TiKZ独角兽早期表现分析据Ethan Mollick在X平台表示，OpenRouter新上线的Hunter Alpha模型目前表现中规中矩，基于Lem测试与Sparks的TiKZ独角兽案例显示其推理与LaTeX图形生成质量参差不齐。根据Ethan Mollick的演示，这些临时基准暗示Hunter Alpha在结构化推理与精确TiKZ渲染上落后于一线前沿模型，或限制其在高风险企业场景的应用。依据OpenRouter模型市场信息，依托社区评测的快速迭代可为微调提供方向，优先强化推理、工具调用与可复现实例图生成，从而为教育工具、轻量文档自动化与图示原型等场景带来商业化机会，前提是可靠性持续提升。原文链接

2026-04-23
19:09

据Sam Altman在X平台转发并引用Sebastien Bubeck的帖文，GPT-5.5在社区“TikZ独角兽”测试上已非常接近满分，通过可运行的TikZ代码重现图形，显示出更强的符号推理与结构化代码生成能力。按照Sebastien Bubeck在X上的说明，该代码可公开验证，这表明模型在多模态对齐与几何理解方面取得显著进展。根据上述来源，这一提升将加速技术文档、自动绘图、学术排版、以及类CAD图形生成等企业场景落地；尽管尚未完全“吃满”该基准，但接近通过的表现已为LaTeX自动化、开发者工具与数据可视化助手带来可用性与效率提升。

原文链接

2026-04-21
02:10

Kimi 2.6 Thinking深度测评：开放权重推理亮点与不足，对比闭源SoTA的74页思维轨迹与代码示例

据Ethan Mollick在X平台表示，Kimi 2.6 Thinking在开放权重模型中展现出较强推理能力，但相较闭源SoTA仍有差距：在Lem测试中生成了74页思维轨迹但答案仅为中等；同时在TiKZ独角兽与twigl海浪中新哥特城市着色器等任务上表现尚可（来源：Ethan Mollick）。据Ethan Mollick，这种可追溯的长链路思维记录有助于企业的合规与审计，但最终答案质量与工程打磨仍需提升，建议在关键推理与代码生成场景与闭源模型并行评估与基准对比。

原文链接

2026-04-16
20:47

Claude Opus 4.7 在 TikZ 绘图上突破：刷新“Sparks of AGI”独角兽最佳表现

据 Ethan Mollick 在 Twitter 表示，Anthropic 的 Claude Opus 4.7 现可生成迄今最强的 TikZ“独角兽”作品，即使不进行显式推理也表现出色，而在思考模式下效果更佳（来源：Ethan Mollick，Twitter，2026年4月16日）。Mollick 指出，该独角兽以 TikZ 绘制，这一 LaTeX 图形语言并非为自由绘画设计，与微软《Sparks of AGI》原始评测中以“画出原始独角兽”检验模型涌现能力的思路一致（来源：Ethan Mollick，Twitter；微软研究院《Sparks of Artificial General Intelligence》，2023）。据微软研究院称，该任务考察模型的组合式推理与可编程图形生成，这对企业在学术排版、技术文档与可复现实验图表自动化具有直接价值（来源：微软研究院，2023）。对于业务落地，更强的 TikZ 代码合成意味着可将自然语言快速转为可维护的矢量图代码，在期刊出版、数据报告与开发者工具链中提升效率并降低设计交付成本（来源：Ethan Mollick，Twitter；微软研究院，2023）。

原文链接

2026-04-09
00:51

Gemini 3.1用TikZ重现“独角兽”：多模态推理与代码生成能力最新分析

据Ethan Mollick在X上的贴文称，谷歌的Gemini 3.1使用并不适合绘图的TikZ语言生成了可辨识的独角兽，这与早期“Sparks of AGI”基准中的“原始独角兽”示例相呼应（来源：Ethan Mollick）。据Mollick报道，这一结果显示Gemini 3.1在代码合成与视觉推理的协同上有提升，可用于企业级的程序化制图、LaTeX自动化与数据可视化流程。Mollick指出，能重现实验基准意味着其在指令遵循、工具使用与组合泛化方面进步，为文档自动化、技术出版与类CAD图形等对可控文本到图形生成有需求的场景带来商业机会。

原文链接

2026-03-12
01:47

OpenRouter神秘模型Hunter Alpha测评：Lem测试与TiKZ独角兽早期表现分析

据Ethan Mollick在X平台表示，OpenRouter新上线的Hunter Alpha模型目前表现中规中矩，基于Lem测试与Sparks的TiKZ独角兽案例显示其推理与LaTeX图形生成质量参差不齐。根据Ethan Mollick的演示，这些临时基准暗示Hunter Alpha在结构化推理与精确TiKZ渲染上落后于一线前沿模型，或限制其在高风险企业场景的应用。依据OpenRouter模型市场信息，依托社区评测的快速迭代可为微调提供方向，优先强化推理、工具调用与可复现实例图生成，从而为教育工具、轻量文档自动化与图示原型等场景带来商业化机会，前提是可靠性持续提升。

原文链接

AI 快讯列表关于 TiKZ