NVIDIA 扩展 Riva ASR 功能,推出 Whisper 和 Canary 模型
realtime news Feb 21, 2025 11:22
NVIDIA 通过使用 Whisper 和 Canary 模型增强其 Riva ASR 的多语言功能,集成了用于离线和自动语音翻译的高级功能。

NVIDIA 通过推出 Riva 2.18.0 容器和 SDK 中的增强功能,在推动其自动语音识别 (ASR) 系统方面取得了重大进展。这些发展是 NVIDIA 不断努力完善其 GPU 加速语音和翻译 AI 微服务的一部分,具体细节由 Sven Chilton 在 NVIDIA Developer Blog 上详述。
集成新模型
最新版本的 Riva 支持 Parakeet 架构,该架构促进了流式多语言 ASR,并支持用于离线 ASR 和自动语音翻译 (AST) 的 Whisper 和 Canary 模型。由 OpenAI 开发的 Whisper 和 HuggingFace 的 Distil-Whisper 模型现在是 Riva 离线 ASR 功能的核心,允许直接将多种语言的音频录音转录和翻译为英语。
Canary 模型进一步扩展了 Riva 的功能,支持多种语言组合的离线 ASR 和 AST,包括 Any-to-English、English-to-Any 和 Any-to-Any 翻译。这些模型满足了多样化的语言需求,提供了对语言检测和翻译任务的强大支持。
选择性 NMT 停用
本次更新引入的一个显著功能是使用 <dnt>
SSML 标签选择性地停用神经机器翻译 (NMT) 过程的部分功能。该功能允许用户指定不应翻译的文本段,提供更大的翻译输出控制。此外,全新的 DNT 字典可以指定某些词语或短语应如何翻译,增强了翻译过程的自定义功能。
部署和使用
通过 Riva Skills Quick Start 资源文件夹,部署这些新功能变得更加简单,其中包括设置拥有 Whisper 和 Canary 功能的 Riva 服务器所需的脚本和配置文件。用户可以根据具体的 ASR 需求选择 Whisper 和 Canary 模型,利用提供的脚本根据其 GPU 架构优化模型部署。
NVIDIA 扩展其 ASR 系统的语言和功能范围的承诺在这些高级模型和功能的整合中显而易见。通过支持更多的语言和提供增强的翻译控制,Riva 继续在语音识别和翻译技术领域设定行业标准。
有关 NVIDIA 最新 ASR 进展的更多信息,请访问 NVIDIA Developer Blog。
Image source: Shutterstock