CCNET:Common Crawl 处理流程

编程入门 行业动态 更新时间:2024-10-07 10:15:26

CCNET:Common Crawl 处理<a href=https://www.elefans.com/category/jswz/34/1770115.html style=流程"/>

CCNET:Common Crawl 处理流程

预训练的文本表征在 NLP 领域带来了非常大的影响,而预训练数据的文本质量和数量会十分影响预训练模型的效果。在 GPT-3 的训练中,Common Crawl 占了百分之六十(如下图所示),是一个非常重要的数据来源。

Common Crawl 是一个海量的、非结构化的、多语言的网页数据集。它包含了超过 8 年的网络爬虫数据集,包含原始网页数据(WARC)、元数据(WAT)和文本提取(WET),拥有PB级规模,可从 Amazon S3 上免费获取。

然而从网络上爬取下来的原始数据非常杂乱,因此这篇文章介绍一下 facebook 的一个工作,对 common crawl 的清洗策略,CCNET。

数据地址: /
CCNET 论文:《CCNet: Extracting High Quality Monolingual Datasets from Web Crawl》
开源代码:

更多推荐

CCNET:Common Crawl 处理流程

本文发布于:2024-03-07 19:44:11,感谢您对本站的认可!
本文链接:https://www.elefans.com/category/jswz/34/1718746.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文标签:流程   CCNET   Common   Crawl

发布评论

评论列表 (有 0 条评论)
草根站长

>www.elefans.com

编程频道|电子爱好者 - 技术资讯及电子产品介绍!