CCNET：Common Crawl 处理流程

编程入门行业动态更新时间:2024-10-07 10:15:26

CCNET：Common Crawl 处理<a href=https://www.elefans.com/category/jswz/34/1770115.html style= 流程"/>

预训练的文本表征在 NLP 领域带来了非常大的影响，而预训练数据的文本质量和数量会十分影响预训练模型的效果。在 GPT-3 的训练中，Common Crawl 占了百分之六十（如下图所示），是一个非常重要的数据来源。

Common Crawl 是一个海量的、非结构化的、多语言的网页数据集。它包含了超过 8 年的网络爬虫数据集，包含原始网页数据（WARC）、元数据（WAT）和文本提取（WET），拥有PB级规模，可从 Amazon S3 上免费获取。

然而从网络上爬取下来的原始数据非常杂乱，因此这篇文章介绍一下 facebook 的一个工作，对 common crawl 的清洗策略，CCNET。

数据地址： /
CCNET 论文：《CCNet: Extracting High Quality Monolingual Datasets from Web Crawl》
开源代码：

更多推荐

CCNET：Common Crawl 处理流程

本文发布于:2024-03-07 19:44:11，感谢您对本站的认可！

流程 CCNET Common Crawl

评论列表（有 0 条评论）