Chain-of-Visual-Thought(COVT):用连续视觉Token革新视觉语言模型感知能力
根据@godofprompt报道,最新论文《Chain-of-Visual-Thought(COVT)》提出了一种革命性方法,让视觉语言模型(VLMs)通过连续视觉Token进行推理,而不是传统的文本链。COVT能在推理过程中生成分割线索、深度信息、边缘和DINO特征等中间视觉信息,相当于为模型提供了“视觉便签”,极大提升了空间和几何理解能力。实验表明,COVT在深度推理上提升14%,CV-Bench提升5.5%,在HRBench和MMVP等多项基准测试中表现出色。该方法适用于Qwen2.5-VL、LLaVA等主流VLM,且生成的视觉Token可被透明解码。研究还发现,传统的文本链推理反而会损害视觉表现,而COVT则通过视觉基础提升计数、空间理解、三维感知,并减少虚假输出。这一突破为机器人、自动驾驶、智能安防等需要高精度视觉分析和空间理解的AI应用带来巨大商业机会。(来源:@godofprompt,《Chain-of-Visual-Thought: Teaching VLMs to See and Think Better with Continuous Visual Tokens》,2025)
原文链接详细分析
God of Prompt
@godofpromptAn AI prompt engineering specialist sharing practical techniques for optimizing large language models and AI image generators. The content features prompt design strategies, AI tool tutorials, and creative applications of generative AI for both beginners and advanced users.