三维感知 AI快讯列表 | Blockchain.News
AI 快讯列表

AI 快讯列表关于 三维感知

时间 详情
2025-11-26
11:09
Chain-of-Visual-Thought(COVT):用连续视觉Token革新视觉语言模型感知能力

根据@godofprompt报道,最新论文《Chain-of-Visual-Thought(COVT)》提出了一种革命性方法,让视觉语言模型(VLMs)通过连续视觉Token进行推理,而不是传统的文本链。COVT能在推理过程中生成分割线索、深度信息、边缘和DINO特征等中间视觉信息,相当于为模型提供了“视觉便签”,极大提升了空间和几何理解能力。实验表明,COVT在深度推理上提升14%,CV-Bench提升5.5%,在HRBench和MMVP等多项基准测试中表现出色。该方法适用于Qwen2.5-VL、LLaVA等主流VLM,且生成的视觉Token可被透明解码。研究还发现,传统的文本链推理反而会损害视觉表现,而COVT则通过视觉基础提升计数、空间理解、三维感知,并减少虚假输出。这一突破为机器人、自动驾驶、智能安防等需要高精度视觉分析和空间理解的AI应用带来巨大商业机会。(来源:@godofprompt,《Chain-of-Visual-Thought: Teaching VLMs to See and Think Better with Continuous Visual Tokens》,2025)