Place your ads here email us at info@blockchain.news
NVIDIA 推出 Granary 数据集以提升多语言语音 AI - Blockchain.News

NVIDIA 推出 Granary 数据集以提升多语言语音 AI

realtime news Aug 15, 2025 09:38

NVIDIA 介绍了 Granary 数据集和模型,旨在改善 25 种欧洲语言的语音识别和翻译,解决 AI 语言模型中的数据匮乏问题。

NVIDIA 推出 Granary 数据集以提升多语言语音 AI

NVIDIA 推出了一种新的开放数据集和模型,旨在推动多语言语音 AI 的发展,解决现有 AI 语言模型中语言支持有限的问题。根据 NVIDIA 的博客文章,Granary 数据集与 NVIDIA Canary 和 Parakeet 模型一起,致力于增强包括克罗地亚语、爱沙尼亚语和马耳他语等未充分代表的语言在内的 25 种欧洲语言的语音识别和翻译能力。

Granary 数据集:AI 开发者的新资源

Granary 数据集是一个全面的多语言语音数据集集合,包含了大约一百万小时的音频。其中近 65 万小时用于语音识别,超过 35 万小时用于语音翻译。该数据集在 Hugging Face 上可以访问,提供给开发者一个有价值的资源,以便在全球范围内扩展 AI 应用程序,促进多语言聊天机器人、客户服务语音代理和实时翻译服务的创建。

Granary 数据集是与卡内基梅隆大学和 Bruno Kessler 基金会合作开发的,利用了 NVIDIA 的 NeMo Speech Data Processor 工具包,将未标记的音频转变为结构化的高质量数据。这种创新的处理流水线无需大量人工标注即可增强公共语音数据,使其成为欧盟官方语言以及俄语和乌克兰语的 AI 训练的重要资源。

介绍 NVIDIA Canary 和 Parakeet 模型

基于 Granary 数据集训练的 NVIDIA Canary-1b-v2 和 Parakeet-tdt-0.6b-v3 模型,为转录和翻译提供了强大的工具。Canary-1b-v2 是一个包含十亿参数的模型,支持高质量的欧洲语言转录和英语与其他 24 种语言之间的翻译。与此同时,Parakeet-tdt-0.6b-v3 拥有 6 亿个参数,优化用于实时或大批量转录任务。

这两个模型都旨在提供精确的标点、大小写和单词级时间戳。Canary-1b-v2 尤其以其效率著称,转录和翻译质量可比三倍其规模的模型,而推理速度可快达 10 倍。

推动语音 AI 创新

通过分享 Granary 及其相关模型背后的方法论,NVIDIA 正在赋能全球语音 AI 开发者社区,以将类似的数据处理工作流应用于其他自动语音识别 (ASR) 或自动语音翻译 (AST) 模型,从而加速该领域的创新。这些模型和数据集在较为宽松的许可下公开提供,鼓励广泛的使用和适应。

Granary 数据集和 NVIDIA 的新模型代表了解决语音 AI 中数据稀缺挑战的重要进展,尤其是针对历史上在 AI 语言模型中代表性不足的语言。这一举措不仅扩大了多语言语音识别和翻译的范围,还增强了全球 AI 技术的包容性和有效性。

Granary 数据集和模型可在 Hugging Face 上探索,更多详情可在NVIDIA 的博客上获取。

Image source: Shutterstock