NVIDIA 发布 Nemotron-CC：用于增强大型语言模型训练的万亿标记数据集

NVIDIA 发布 Nemotron-CC：用于增强大型语言模型训练的万亿标记数据集 - Blockchain.News

NVIDIA 已将其 Nemotron-CC 流程集成到 NeMo Curator 中，提供了一种突破性的方式来策划高质量的大型语言模型 (LLM) 数据集。根据 NVIDIA 的说法，Nemotron-CC 数据集利用了 Common Crawl 提供的 6.3 万亿标记的英语语言集合，旨在显著提高 LLM 的准确性。

数据策划的进展

Nemotron-CC 流程解决了传统数据策划方法的局限性，这些方法由于启发式过滤经常丢弃潜在的有用数据。通过使用分类器集成和合成数据改写，该流程生成了 2 万亿标记的高质量合成数据，恢复多达 90% 因过滤而丢失的内容。

创新流程特征

该流程的数据策划从使用 jusText 和 FastText 等工具进行的 HTML-to-text 提取语言识别开始。然后，它应用重复数据删除以去除冗余数据，利用 NVIDIA RAPIDS 库进行有效处理。该过程包括 28 项启发式过滤器以确保数据质量，并通过 PerplexityFilter 模块进行进一步改进。

通过分类器集成实现质量标记，评估并将文档分类为不同的质量水平，助力合成数据的有针对性生成。这种方法可以从文本中创建多样化的 QA 对、精炼的内容和组织化的知识列表。

对 LLM 训练的影响

使用 Nemotron-CC 数据集训练 LLM 显著提高了性能。例如，在 Nemotron-CC 的 1 万亿标记子集上训练的 Llama 3.1 模型相比训练在传统数据集上的模型，MMLU 分数提高了 5.6 分。此外，使用包括 Nemotron-CC 在内的长期标记数据训练的模型，在基准测试分数上提高了 5 分。

开始使用 Nemotron-CC

Nemotron-CC 流程可供开发人员使用，旨在预训练基础模型或在各个领域进行领域自适应预训练。NVIDIA 提供了分步教程和 API 供用户自定义，帮助用户根据特定需求优化流程。集成到 NeMo Curator 中使得预训练和微调数据集的开发无缝进行。

更多信息，请访问 NVIDIA 博客。

Image source: Shutterstock

NVIDIA 发布 Nemotron-CC：用于增强大型语言模型训练的万亿标记数据集

数据策划的进展

创新流程特征

对 LLM 训练的影响

开始使用 Nemotron-CC

Premium Sponsors

Flash News