NVIDIA 发布 Nemotron-CC:用于增强大型语言模型训练的万亿标记数据集
realtime news May 07, 2025 16:21
NVIDIA 推出 Nemotron-CC,一个集成了 NeMo Curator 的万亿标记数据集,专为大型语言模型设计。这一创新流程优化了数据质量和数量,以实现卓越的 AI 模型训练。

NVIDIA 已将其 Nemotron-CC 流程集成到 NeMo Curator 中,提供了一种突破性的方式来策划高质量的大型语言模型 (LLM) 数据集。根据 NVIDIA 的说法,Nemotron-CC 数据集利用了 Common Crawl 提供的 6.3 万亿标记的英语语言集合,旨在显著提高 LLM 的准确性。
数据策划的进展
Nemotron-CC 流程解决了传统数据策划方法的局限性,这些方法由于启发式过滤经常丢弃潜在的有用数据。通过使用分类器集成和合成数据改写,该流程生成了 2 万亿标记的高质量合成数据,恢复多达 90% 因过滤而丢失的内容。
创新流程特征
该流程的数据策划从使用 jusText 和 FastText 等工具进行的 HTML-to-text 提取语言识别开始。然后,它应用重复数据删除以去除冗余数据,利用 NVIDIA RAPIDS 库进行有效处理。该过程包括 28 项启发式过滤器以确保数据质量,并通过 PerplexityFilter 模块进行进一步改进。
通过分类器集成实现质量标记,评估并将文档分类为不同的质量水平,助力合成数据的有针对性生成。这种方法可以从文本中创建多样化的 QA 对、精炼的内容和组织化的知识列表。
对 LLM 训练的影响
使用 Nemotron-CC 数据集训练 LLM 显著提高了性能。例如,在 Nemotron-CC 的 1 万亿标记子集上训练的 Llama 3.1 模型相比训练在传统数据集上的模型,MMLU 分数提高了 5.6 分。此外,使用包括 Nemotron-CC 在内的长期标记数据训练的模型,在基准测试分数上提高了 5 分。
开始使用 Nemotron-CC
Nemotron-CC 流程可供开发人员使用,旨在预训练基础模型或在各个领域进行领域自适应预训练。NVIDIA 提供了分步教程和 API 供用户自定义,帮助用户根据特定需求优化流程。集成到 NeMo Curator 中使得预训练和微调数据集的开发无缝进行。
更多信息,请访问 NVIDIA 博客。
Image source: Shutterstock