C4 数据集基本信息速览
参考 Documenting Large Webtext Corpora: A Case Study on the Colossal Clean Crawled Corpus。
- 从 365 百万 domain 中抓取,共计大约 1560 亿 token。
- 用来训练 T5 和 Switch Transformer。
- Raffel et al. (2020) 提供了重新创建 C4 的脚本,但是运行这些脚本大概需要数千刀。
- C4 是以 Common Crawl 2019 年 4 月的 snapshot 为基础创建的,使用了很多 filter 来过滤文本。
- 这些 filter 的作用包括:
- 删除没有 terminal punctuation mark 的行。
- 删除少于 3 个词的行。
- 删除少于 5 个句子的文档。
- 删除包含包含 Lorem ipsum 这种 placeholder 文本的文档。
- 删除包含“List of Dirty, Naughty, Obscene, or Otherwise Bad Words”中任何单词的文档。
- 删除非英文文档,非英文的标准是使用
langdetect
得到的英文概率小于 0.99,所以 C4 主要是英文文档。
- 应用了 filter 的数据集版本叫 C4.EN,没应用的叫 C4.EN.NOCLEAN,没有使用 blcoklist 的 C4.EN 叫 C4.EN.NOBLOCKLIST。三个版本的简单统计如下图,其中 token 数是用 spacy 的 English tokenizer 分词后统计的:
- 来源网址中,按 TLD(top-level domains)统计,前三名是 .com、.org、.co.uk,其中 .gov 和 .mil 占比也不少,后者尽管不在 top25 中,但是也有 33 百万 token。
- 按网站统计,前三名是
patents.google.com
、en.wikipedia.com
、en.m.wikipedia.com
。 - 按发表时间统计,92% 都发表在数据集收集前的一个十年中(2011-2019),分布是长尾分布 long-tailed,大部分都在数据收集前的 10-20 年间。这是从 C4.EN 中采样得来的,采样大小为 1 百万。发表时间是按照该网址被 Internet Archive 首次索引收录的时间算的,所以真实发表时间实际更早一点。
- 按地理位置统计,作者使用了一个 IP-country 数据库,从原始数据集中随机采样了一个大小为 17 万 5 千的样本集。前五名是美国(51.3%)、无法分辨、德国、英国和加拿大。中国排在第 18,香港排在第 16。值得注意的是,按人口算第 2、3、4 大说英语的国家——印度、巴基斯坦、尼日利亚、菲律宾,在数据集中占比只有美国的 3.4%、0.06%、0.03%、0.1%,尽管他们有数千万人说英语。
- C4 包含大量机器生成的文本,machine-generated text,主要包括专利的机器翻译和 ocr 文本。前面说过,按网站统计
patents.google.com
排第一,这是专利网站,Google 会使用机器翻译模型翻译非英文专利,也会使用 ocr 将扫描文本识别出来。识别哪些文本是机器生成的也是一个活跃的研究领域。 - C4 中存在 benchmark data contamination 现象,即下游任务的训练集或测试集出现在 C4 中,造成了数据污染。具体来说,分为两种情况:input-and-label contamination 和 input contamination。
- 一些 seq2seq 任务的 label 其实就是 input 中的文本,例如抽取式摘要,如果这种任务的 input 出现在了预训练数据集中,那么其 label 也相当于出现在了预训练数据集中,那么我们有理由认为模型实际上只是在背书而没有做真正的推理。作者分析了 3 个生成式任务的7个数据集,发现均有不同程度(1.87-24.88%)的污染,target 文本为单句的匹配率(完全匹配)要明显高于多句。
- Input contamination 同样会对下游任务造成影响。作者发现有 2-50% 的 GLUE input 出现在 C4 中。对于分类任务来说,虽然不包含 label 的训练集出现在 C4 中并不影响最终性能,但是对 zero-shot 和 few-shot 来说,这仍然是一个值得慎重对待的问题。
- C4 带有明显的种族偏见,“Jewish”更容易与积极情绪挂钩,而“Arab”更容易与消极情绪挂钩。
- 对被排掉的文档进行随机抽样,得到 10 万份文档,然后进行 k-means 聚类,k=50,使用 TF-IDF 进行 embedding,然后使用 PCA 进行降维可视化。但最终发现只有 16 个类,且三分之一的是性相关文档。
- 相比于种族,提及性取向的文档更有可能被排除,例如 lesbian 和 gay。这个结论是通过计算点互信息 PMI 得到的。
- 非裔美国英语 AAE 和西班牙裔美国英语 Hisp 更有可能被排除。
- 许多被排除的文档并不包含 offensive 和 sexual 内容。
- 97.8% 的 C4.EN 是白人英语 WAE,AAE 和 Hisp 分别只有 0.07% 和 0.09%。
- 在创建数据集的过程中,评估 bias 很重要。
- 在清洗 web-crawled 数据时,作者反对使用黑名单的方法来排除文档。
- 作者分析的是 C4.EN,所以本文结论可能并不适合其他语言。
- GPT-3 的作者在训练完成之后,才发现存在 benchmark contamination。由于重新训练非常昂贵,他们没有重新训练,转而分析不同任务受到该现象的影响,发现确实会影响相关 benchmark 的性能。
C4 数据集基本信息速览相关推荐
- 【AI视野·今日CV 计算机视觉论文速览 第165期】Mon, 21 Oct 2019
AI视野·今日CS.CV 计算机视觉论文速览 Mon, 21 Oct 2019 Totally 34 papers ?上期速览✈更多精彩请移步主页 Interesting: ?****基于立体视觉的三 ...
- 【今日CV 计算机视觉论文速览 第130期】Thu, 13 Jun 2019
今日CS.CV 计算机视觉论文速览 Thu, 13 Jun 2019 Totally 39 papers ?上期速览✈更多精彩请移步主页 Interesting: ?LED2Netz照明条件估计的去雾 ...
- 【AI视野·今日CV 计算机视觉论文速览 第159期】Tue, 24 Sep 2019
AI视野·今日CS.CV 计算机视觉论文速览 Tue, 24 Sep 2019 Totally 67 papers ?上期速览✈更多精彩请移步主页 Interesting: ?基于层次点和边缘交互的网 ...
- 【今日CV 计算机视觉论文速览 第135期】Mon, 24 Jun 2019
今日CS.CV 计算机视觉论文速览 Mon, 24 Jun 2019 Totally 16 papers ?上期速览✈更多精彩请移步主页 Interesting: ?RGB-D摄像头的稀疏深度图补全, ...
- 【今日CV 计算机视觉论文速览 第149期】Tue, 30 Jul 2019
今日CS.CV 计算机视觉论文速览 Tue, 30 Jul 2019 Totally 77 papers ?上期速览✈更多精彩请移步主页 Interesting: ?MaskGAN人脸属性操作的新方法 ...
- .NET平台开源项目速览(2)Compare .NET Objects对象比较组件
原文:.NET平台开源项目速览(2)Compare .NET Objects对象比较组件 .NET平台开源项目速览今天介绍一款小巧强大的对象比较组件.可以更详细的获取2个对象的差别,并记录具体差别,比 ...
- DataWorks功能实践速览 05——循环与遍历
简介:DataWorks功能实践系列,帮助您解析业务实现过程中的痛点,提高业务功能使用效率!通过往期的介绍,您已经了解到在DataWorks上进行任务运行的最关键的几个知识点,其中上期参数透传中为您介 ...
- 【AI视野·今日CV 计算机视觉论文速览 第164期】Fri, 18 Oct 2019
AI视野·今日CS.CV 计算机视觉论文速览 Fri, 18 Oct 2019 Totally 30 papers ?上期速览✈更多精彩请移步主页 Interesting: ?****医学图像语义分割 ...
- 【AI视野·今日CV 计算机视觉论文速览 第162期】Fri, 27 Sep 2019
AI视野·今日CS.CV 计算机视觉论文速览 Fri, 27 Sep 2019 Totally 55 papers ?上期速览✈更多精彩请移步主页 Interesting: TODO(rjj): de ...
最新文章
- android 中改变按钮按下时的颜色
- 英特尔史上最大收购!英特尔拟300亿美元收购GF,审批成关键!
- QT中Widget去除系统提供工具以及系统默认边框
- Cobbler Web界面提示报错 “Internal Server Error”
- 只显示小方格_不妨谈谈二维方格子吧
- C#打开文件和文件夹
- rediscli shell_redis shell
- 安装centos7系统
- 工作的准备:atoi,itoa,strcpy,memcpy,strcmp,二分查找,strcat
- 【MVC5】对MySql数据库使用EntityFramework
- typecho图标_使你的Typecho支持Emoji表情
- 监管科技崛起:从FinTech到RegTech
- 你知道哪些苹果自家应用采用 Swift 语言编写吗?
- PuttyPsftp
- php 判断微信浏览器支付宝,PHP判断是手机端-PC端-微信浏览器
- sql查看服务器版本信息,怎么查看SQL Server2000的版本号
- Guided backpropagation
- win7分区c盘调整容量_深度学习 | win7与ubuntu 18.04双系统安装教程
- mac 上最好用的SSH终端FinalShell
- 计算机显示器文字不清楚,笔记本电脑字体显示不清晰解决方法分辨率和显卡驱动...
热门文章
- 分享一款学生、工程师多功能计算器
- Nginx配置实例-动静分离
- 华硕 内存条 不同步_双11还没到,价格战就已打响,酷兽RGB灯条直接杀价至379元|内存条|内存|台式机|酷兽|rgb...
- 无人机、无人车仿真软件AirSim默认传感器设置
- ---Warkey 界面修改手记
- Android Linux换核 + goldfish环境搭建
- c语言第九章作业百科园,C语言上机题库百科园第章 南信大
- QR扫码综合示例教程(二十二)Qt5.15.2+Qt6.2.1(qml)+opencv4.5.4解决扫码聚焦、闪光灯(多线程、微信扫码)
- [喵咪开源软件推荐(3)]全球IP库-GeoLite2-City
- EJB3 helloworld