将计算机视觉与生成式AI整合以增强视频分析

将计算机视觉与生成式AI整合以增强视频分析 - Blockchain.News

在视频分析方面出现了一项重大进展，NVIDIA发布了其视频搜索和摘要（VSS）蓝图的最新版本。此版本VSS 2.4整合了生成式AI和先进的推理模型，改变了视频内容的分析和理解方式。据NVIDIA称，这些增强功能有望在各个行业提供更丰富的洞察和更具可操作性的数据。

视频理解的进步

NVIDIA的Cosmos Reason，即最先进的推理视觉语言模型（VLM）的整合标志着VSS蓝图的一个关键发展。借助一个70亿参数的模型，Cosmos Reason通过利用先验知识和常识使AI代理能够解释和作用于物理环境，大大增强了对视频内容的理解。这种整合支持更高效的视频处理，并提供对场景更深刻的见解，从而支持制造、物流、零售和交通等领域的应用。

增强的问答功能

VSS 2.4中的新功能还通过使用知识图谱和跨摄像头支持改进了问答功能。通过将视频流分解为可管理的块，利用VLM生成字幕，并构建总结最重要细节的知识图谱来实现这一目标。使用大型语言模型（LLMs）来遍历这些图谱为跨多个视频流回答复杂查询提供了一种稳健的机制，提高了数据的准确性和上下文理解。

边缘的生成式AI

VSS 2.4的一个突出功能是通过事件审阅工具在边缘部署生成式AI的能力。此工具通过仅审核计算机视觉管道标记的关键时刻实现低延迟处理，有效降低了计算成本。这使其成为在资源有限的边缘部署的理想解决方案。

扩展的硬件支持

VSS蓝图2.4现兼容一系列NVIDIA硬件平台，包括RTX Pro 6000系列和为边缘部署设计的Jetson Thor。这种扩展的硬件支持确保VSS蓝图能满足从大规模云环境到本地化边缘应用的各种部署场景的需求。

这些发展强调了NVIDIA通过整合尖端AI技术以推进视频分析的承诺。欲了解更多详细的技术见解，请访问NVIDIA博客。

Image source: Shutterstock

Bookmark

将计算机视觉与生成式AI整合以增强视频分析

视频理解的进步

增强的问答功能

边缘的生成式AI

扩展的硬件支持

Premium Sponsors

Flash News