Place your ads here email us at info@blockchain.news
NVIDIA 发布实时语者识别的流媒体 Sortformer - Blockchain.News

NVIDIA 发布实时语者识别的流媒体 Sortformer

realtime news Aug 19, 2025 15:06

NVIDIA 推出流媒体 Sortformer,一个实时语者分离模型,加强会议、通话和语音应用中的多语者跟踪。了解其功能和潜在应用。

NVIDIA 发布实时语者识别的流媒体 Sortformer

NVIDIA 宣布推出其最新创新产品——流媒体 Sortformer,这是一种实时语者分离模型,旨在彻底改变在会议、通话和语音应用中识别语者的方式。据 NVIDIA 介绍,该模型设计用于处理低延迟的多语者场景,与 NVIDIA NeMo 和 NVIDIA Riva 工具无缝集成。

主要特点和功能

流媒体 Sortformer 提供了可增强其在各种实时应用中可用性的高级功能。它提供帧级别的分离,并为每个声明提供精确的时间戳,以确保准确的语者跟踪。该模型支持两到四个语者的跟踪,具有最小延迟,并针对高效的 GPU 推理进行了优化,适用于 NeMo 和 Riva 工作流程。虽然主要针对英语进行优化,但它在普通话数据集和其他语言上的表现也很出色。

基准性能

流媒体 Sortformer 的性能评估在语者辨识精确度的重要指标——分离错误率(DER)方面显示出令人印象深刻的效果,较低的率表明更好的性能。该模型在与现有系统如 EEND-GLA 和 LS-EEND 的竞争中表现良好,展示了其在实时语者跟踪环境中的潜力。

应用和用例

该模型的多样性在其广泛的应用中显而易见。从在会议期间生成带语者标签的实时转录,到促进联络中心的合规与质量保证,流媒体 Sortformer 有望提高各领域的生产力。此外,通过改善对话自然性和轮流发言,它还支持语音机器人和 AI 助手,并通过自动标记帮助媒体和广播行业进行编辑。

技术架构

在幕后,流媒体 Sortformer 采用了复杂的架构,包括卷积预编码模块和一系列同构体和变压器块。这些组件协同工作,处理和分析音频,根据语者在录音中的出现对其进行排序。模型使用到达顺序语者缓存(AOSC)以小的重叠块处理音频,确保流中一致的语者识别。

未来前景和局限性

尽管其功能强大,流媒体 Sortformer 目前设计用于最多四个语者的场景。NVIDIA 承认需要进一步开发以扩展其能力,处理更多语者并在各种语言和复杂声学环境中提高性能。还计划加强与 Riva 和 NeMo 管道的集成。

对于有兴趣探索流媒体 Sortformer 技术细节的人来说,NVIDIA 关于离线 Sortformer 的研究已在arXiv上提供。

Image source: Shutterstock