Chain-of-Visual-Thought（COVT）：用连续视觉Token革新视觉语言模型感知能力

Chain-of-Visual-Thought（COVT）：用连续视觉Token革新视觉语言模型感知能力 | AI快讯详情 | Blockchain.News

根据@godofprompt报道，最新论文《Chain-of-Visual-Thought（COVT）》提出了一种革命性方法，让视觉语言模型（VLMs）通过连续视觉Token进行推理，而不是传统的文本链。COVT能在推理过程中生成分割线索、深度信息、边缘和DINO特征等中间视觉信息，相当于为模型提供了“视觉便签”，极大提升了空间和几何理解能力。实验表明，COVT在深度推理上提升14%，CV-Bench提升5.5%，在HRBench和MMVP等多项基准测试中表现出色。该方法适用于Qwen2.5-VL、LLaVA等主流VLM，且生成的视觉Token可被透明解码。研究还发现，传统的文本链推理反而会损害视觉表现，而COVT则通过视觉基础提升计数、空间理解、三维感知，并减少虚假输出。这一突破为机器人、自动驾驶、智能安防等需要高精度视觉分析和空间理解的AI应用带来巨大商业机会。（来源：@godofprompt，《Chain-of-Visual-Thought: Teaching VLMs to See and Think Better with Continuous Visual Tokens》，2025）

原文链接

详细分析

Chain-of-Visual-Thought（COVT）技术的出现标志着视觉语言模型（VLMs）的一个重大突破，它使模型能够通过连续视觉令牌进行推理，而不是传统的基于文本的方法。根据Chain-of-Visual-Thought论文所述，这种创新解决了当前VLMs的一个核心局限性，即强迫模型通过语言表达复杂视觉细节往往导致精细信息丢失，从而在深度感知和空间理解等任务中产生不准确性。COVT引入了一种机制，让模型生成中间视觉潜变量，包括分割线索、深度线索、边缘和DINO特征，然后将它们链式连接形成视觉推理过程。这就像一个视觉草稿本，允许模型在生成响应前直接感知和操纵几何、空间和边界信息。该方法展示了显著改进，如深度推理准确率提升14%，CV-Bench提升5.5%，以及HRBench和MMVP基准上的巨大收益，这些数据来自2025年发布的论文。在多模态AI的演进景观中，这种发展与对无缝整合视觉和语言的需求相符，尤其适用于自主系统、机器人和增强现实应用。传统基于文本的思维链提示已被证明会降低视觉性能，正如论文中对Qwen2.5-VL和LLaVA等模型的实验所显示。通过转向视觉令牌，COVT不仅保留了详细视觉数据，还使推理过程可解释，用户可以解码模型的视觉思维为掩码、边缘和深度图。这在可解释AI方面是一大进步，解决了医疗成像和自动驾驶等领域的模型决策透明性问题。截至2025年11月26日，神之提示推文分享的讨论强调了其将多模态推理 grounding在视觉领域的潜力，为动态环境中的可靠AI系统铺平道路。从商业角度看，COVT为依赖精确视觉AI的行业如电子商务、制造和娱乐开辟了丰厚市场机会。公司可以利用这项技术提升产品推荐系统，对用户上传图像进行更好的空间分析，根据麦肯锡2024年报告中的类似AI个性化趋势，可能将转化率提高10%至20%。市场分析显示，全球AI计算机视觉市场预计到2026年达到500亿美元，根据Statista 2023年数据，而COVT等创新可加速增长，通过更有效的模型训练和部署。采用COVT集成的VLMs企业可能减少视觉声明中的幻觉，导致制造质量控制中的错误减少，准确对象边界检测可每年为每个设施节省数百万成本。货币化策略包括向AI开发者许可COVT框架、创建基于订阅的视觉推理工具平台，或将其集成到AR/VR内容创建的SaaS解决方案中。像OpenAI和Google这样的关键玩家已经在多模态模型上大量投资，可能面临专注于视觉AI初创公司的竞争，形成动态竞争格局。监管考虑至关重要，因为增强视觉能力在监控应用中引发隐私担忧，需要遵守GDPR和2024年提出的欧盟AI法案新兴指南。从伦理上，企业必须实施视觉数据处理偏差缓解的最佳实践以确保公平结果。总体而言，COVT的实施面临计算需求增加等挑战，但论文中概述的高效令牌预测机制可以缓解这些，使其成为扩展AI操作的可行选择。从技术上讲，COVT通过预测连续视觉令牌序列运作，这些令牌通过专用解码器重建密集视觉信号，用于分割、深度和边缘，确保模型在视觉思考时保持效率。这种方法解锁了准确计数、可靠空间理解和真实3D意识等能力，实验显示在2025年论文发布时的基准上巨大收益。实施考虑包括将COVT集成到现有VLMs中，这需要对富含视觉注释的数据集进行微调，可能将训练时间增加15%至25%，但产生长期性能提升。解码延迟等挑战可以通过优化硬件如带有张量核的GPU来解决，正如NVIDIA 2024年技术简报所建议。展望未来，COVT可能演变为结合视觉和文本推理的混合系统，预测到2030年在机器人领域的广泛采用，其中空间准确性可能将导航任务错误率降低高达30%，基于2023年IEEE期刊机器人行业分析的预测。竞争优势在于开源实施，鼓励Meta和Hugging Face等关键玩家的合作。伦理最佳实践涉及审计视觉令牌的可解释性，以防止在深度假生成中的滥用。总之，这一创新为更 grounded的多模态AI奠定基础，对商业效率和技术进步具有深远影响。常见问题：什么是AI中的Chain-of-Visual-Thought？Chain-of-Visual-Thought或COVT是一种技术，允许视觉语言模型使用视觉令牌而不是文本进行推理，提高视觉任务准确性。COVT如何惠及企业？它通过提供更好的空间和深度理解增强电子商务和制造应用，导致成本节省和改善用户体验。

三维感知多模态AI 空间智能自动驾驶视觉推理视觉语言模型连续视觉Token

God of Prompt

@godofprompt

An AI prompt engineering specialist sharing practical techniques for optimizing large language models and AI image generators. The content features prompt design strategies, AI tool tutorials, and creative applications of generative AI for both beginners and advanced users.