NVIDIA VSS 利用 AI 代理将视频转化为可搜索的智能信息

NVIDIA 推出了其最新的视频搜索与摘要 (VSS) 平台，为组织从视频中提取可操作的智能信息带来了重大突破。通过结合视觉语言模型 (VLMs)、大型语言模型 (LLMs) 和模块化AI代理，VSS 3 能够在庞大的视频数据集中实现实时搜索、趋势检测和自动化报告。

VSS 平台旨在解决视频分析的最大挑战之一：解析数百万小时的录像或直播以寻找特定事件或洞察。最新版本引入了模块化架构，让开发者能够更快、更高效地构建和部署 AI 驱动的视频分析工具。

VSS 的主要功能

VSS 集成了先进的 AI 能力，用于实时视频智能。亮点包括：

例如，使用 VSS 和 OpenClaw，仓库经理可以通过回顾数小时的录像分析安全合规性，以识别穿戴适当安全装备爬梯子的工人。系统自动完成此分析，提供带有视频时间戳和截图的详细报告。

VSS 针对一系列 GPU（包括 NVIDIA 的 H100 和 RTX PRO 6000）进行了优化。关键指标展示了其可扩展性和速度：

工作流程	GPU	最大并发流	检索延迟
代理搜索	H100	33	2.24秒
代理搜索	RTX PRO 6000	51	1.87秒
警报验证	H100	147	1.01秒

这些基准测试突出了 VSS 在处理实时和大规模视频分析时的灵活性，同时不牺牲精度。

NVIDIA 为开发者提供了广泛的资源，帮助他们将 VSS 集成到应用程序中。预制技能托管在 GitHub 上，并且可以使用 NVIDIA Brev Launchable 等工具自动化部署。如需深入指导，请访问VSS 文档或加入 NVIDIA 的论坛获取技术支持。

通过 VSS，NVIDIA 正在为视频分析设定新标准，将原始视频转化为有意义的洞察，从而推动各行业做出更明智的决策。

Image source: Shutterstock