AI 快讯列表关于 TiKZ
| 时间 | 详情 |
|---|---|
| 19:09 |
GPT-5.5逼近TikZ独角兽基准:多模态推理与代码生成最新分析
据Sam Altman在X平台转发并引用Sebastien Bubeck的帖文,GPT-5.5在社区“TikZ独角兽”测试上已非常接近满分,通过可运行的TikZ代码重现图形,显示出更强的符号推理与结构化代码生成能力。按照Sebastien Bubeck在X上的说明,该代码可公开验证,这表明模型在多模态对齐与几何理解方面取得显著进展。根据上述来源,这一提升将加速技术文档、自动绘图、学术排版、以及类CAD图形生成等企业场景落地;尽管尚未完全“吃满”该基准,但接近通过的表现已为LaTeX自动化、开发者工具与数据可视化助手带来可用性与效率提升。 |
|
2026-04-21 02:10 |
Kimi 2.6 Thinking深度测评:开放权重推理亮点与不足,对比闭源SoTA的74页思维轨迹与代码示例
据Ethan Mollick在X平台表示,Kimi 2.6 Thinking在开放权重模型中展现出较强推理能力,但相较闭源SoTA仍有差距:在Lem测试中生成了74页思维轨迹但答案仅为中等;同时在TiKZ独角兽与twigl海浪中新哥特城市着色器等任务上表现尚可(来源:Ethan Mollick)。据Ethan Mollick,这种可追溯的长链路思维记录有助于企业的合规与审计,但最终答案质量与工程打磨仍需提升,建议在关键推理与代码生成场景与闭源模型并行评估与基准对比。 |
|
2026-04-16 20:47 |
Claude Opus 4.7 在 TikZ 绘图上突破:刷新“Sparks of AGI”独角兽最佳表现
据 Ethan Mollick 在 Twitter 表示,Anthropic 的 Claude Opus 4.7 现可生成迄今最强的 TikZ“独角兽”作品,即使不进行显式推理也表现出色,而在思考模式下效果更佳(来源:Ethan Mollick,Twitter,2026年4月16日)。Mollick 指出,该独角兽以 TikZ 绘制,这一 LaTeX 图形语言并非为自由绘画设计,与微软《Sparks of AGI》原始评测中以“画出原始独角兽”检验模型涌现能力的思路一致(来源:Ethan Mollick,Twitter;微软研究院《Sparks of Artificial General Intelligence》,2023)。据微软研究院称,该任务考察模型的组合式推理与可编程图形生成,这对企业在学术排版、技术文档与可复现实验图表自动化具有直接价值(来源:微软研究院,2023)。对于业务落地,更强的 TikZ 代码合成意味着可将自然语言快速转为可维护的矢量图代码,在期刊出版、数据报告与开发者工具链中提升效率并降低设计交付成本(来源:Ethan Mollick,Twitter;微软研究院,2023)。 |
|
2026-04-09 00:51 |
Gemini 3.1用TikZ重现“独角兽”:多模态推理与代码生成能力最新分析
据Ethan Mollick在X上的贴文称,谷歌的Gemini 3.1使用并不适合绘图的TikZ语言生成了可辨识的独角兽,这与早期“Sparks of AGI”基准中的“原始独角兽”示例相呼应(来源:Ethan Mollick)。据Mollick报道,这一结果显示Gemini 3.1在代码合成与视觉推理的协同上有提升,可用于企业级的程序化制图、LaTeX自动化与数据可视化流程。Mollick指出,能重现实验基准意味着其在指令遵循、工具使用与组合泛化方面进步,为文档自动化、技术出版与类CAD图形等对可控文本到图形生成有需求的场景带来商业机会。 |
|
2026-03-12 01:47 |
OpenRouter神秘模型Hunter Alpha测评:Lem测试与TiKZ独角兽早期表现分析
据Ethan Mollick在X平台表示,OpenRouter新上线的Hunter Alpha模型目前表现中规中矩,基于Lem测试与Sparks的TiKZ独角兽案例显示其推理与LaTeX图形生成质量参差不齐。根据Ethan Mollick的演示,这些临时基准暗示Hunter Alpha在结构化推理与精确TiKZ渲染上落后于一线前沿模型,或限制其在高风险企业场景的应用。依据OpenRouter模型市场信息,依托社区评测的快速迭代可为微调提供方向,优先强化推理、工具调用与可复现实例图生成,从而为教育工具、轻量文档自动化与图示原型等场景带来商业化机会,前提是可靠性持续提升。 |