NVIDIA 发布实时语者识别的流媒体 Sortformer

NVIDIA 发布实时语者识别的流媒体 Sortformer - Blockchain.News

NVIDIA 宣布推出其最新创新产品——流媒体 Sortformer，这是一种实时语者分离模型，旨在彻底改变在会议、通话和语音应用中识别语者的方式。据 NVIDIA 介绍，该模型设计用于处理低延迟的多语者场景，与 NVIDIA NeMo 和 NVIDIA Riva 工具无缝集成。

主要特点和功能

流媒体 Sortformer 提供了可增强其在各种实时应用中可用性的高级功能。它提供帧级别的分离，并为每个声明提供精确的时间戳，以确保准确的语者跟踪。该模型支持两到四个语者的跟踪，具有最小延迟，并针对高效的 GPU 推理进行了优化，适用于 NeMo 和 Riva 工作流程。虽然主要针对英语进行优化，但它在普通话数据集和其他语言上的表现也很出色。

基准性能

流媒体 Sortformer 的性能评估在语者辨识精确度的重要指标——分离错误率（DER）方面显示出令人印象深刻的效果，较低的率表明更好的性能。该模型在与现有系统如 EEND-GLA 和 LS-EEND 的竞争中表现良好，展示了其在实时语者跟踪环境中的潜力。

应用和用例

该模型的多样性在其广泛的应用中显而易见。从在会议期间生成带语者标签的实时转录，到促进联络中心的合规与质量保证，流媒体 Sortformer 有望提高各领域的生产力。此外，通过改善对话自然性和轮流发言，它还支持语音机器人和 AI 助手，并通过自动标记帮助媒体和广播行业进行编辑。

技术架构

在幕后，流媒体 Sortformer 采用了复杂的架构，包括卷积预编码模块和一系列同构体和变压器块。这些组件协同工作，处理和分析音频，根据语者在录音中的出现对其进行排序。模型使用到达顺序语者缓存（AOSC）以小的重叠块处理音频，确保流中一致的语者识别。

未来前景和局限性

尽管其功能强大，流媒体 Sortformer 目前设计用于最多四个语者的场景。NVIDIA 承认需要进一步开发以扩展其能力，处理更多语者并在各种语言和复杂声学环境中提高性能。还计划加强与 Riva 和 NeMo 管道的集成。

对于有兴趣探索流媒体 Sortformer 技术细节的人来说，NVIDIA 关于离线 Sortformer 的研究已在arXiv上提供。

Image source: Shutterstock