NEW
NVIDIA 发布 Nemotron-CC:用于增强大型语言模型训练的万亿标记数据集 - Blockchain.News

NVIDIA 发布 Nemotron-CC:用于增强大型语言模型训练的万亿标记数据集

realtime news May 07, 2025 16:21

NVIDIA 推出 Nemotron-CC,一个集成了 NeMo Curator 的万亿标记数据集,专为大型语言模型设计。这一创新流程优化了数据质量和数量,以实现卓越的 AI 模型训练。

NVIDIA 发布 Nemotron-CC:用于增强大型语言模型训练的万亿标记数据集

NVIDIA 已将其 Nemotron-CC 流程集成到 NeMo Curator 中,提供了一种突破性的方式来策划高质量的大型语言模型 (LLM) 数据集。根据 NVIDIA 的说法,Nemotron-CC 数据集利用了 Common Crawl 提供的 6.3 万亿标记的英语语言集合,旨在显著提高 LLM 的准确性。

数据策划的进展

Nemotron-CC 流程解决了传统数据策划方法的局限性,这些方法由于启发式过滤经常丢弃潜在的有用数据。通过使用分类器集成和合成数据改写,该流程生成了 2 万亿标记的高质量合成数据,恢复多达 90% 因过滤而丢失的内容。

创新流程特征

该流程的数据策划从使用 jusText 和 FastText 等工具进行的 HTML-to-text 提取语言识别开始。然后,它应用重复数据删除以去除冗余数据,利用 NVIDIA RAPIDS 库进行有效处理。该过程包括 28 项启发式过滤器以确保数据质量,并通过 PerplexityFilter 模块进行进一步改进。

通过分类器集成实现质量标记,评估并将文档分类为不同的质量水平,助力合成数据的有针对性生成。这种方法可以从文本中创建多样化的 QA 对、精炼的内容和组织化的知识列表。

对 LLM 训练的影响

使用 Nemotron-CC 数据集训练 LLM 显著提高了性能。例如,在 Nemotron-CC 的 1 万亿标记子集上训练的 Llama 3.1 模型相比训练在传统数据集上的模型,MMLU 分数提高了 5.6 分。此外,使用包括 Nemotron-CC 在内的长期标记数据训练的模型,在基准测试分数上提高了 5 分。

开始使用 Nemotron-CC

Nemotron-CC 流程可供开发人员使用,旨在预训练基础模型或在各个领域进行领域自适应预训练。NVIDIA 提供了分步教程和 API 供用户自定义,帮助用户根据特定需求优化流程。集成到 NeMo Curator 中使得预训练和微调数据集的开发无缝进行。

更多信息,请访问 NVIDIA 博客

Image source: Shutterstock