参考 Documenting Large Webtext Corpora: A Case Study on the Colossal Clean Crawled Corpus。

  1. 从 365 百万 domain 中抓取,共计大约 1560 亿 token。
  2. 用来训练 T5 和 Switch Transformer。
  3. Raffel et al. (2020) 提供了重新创建 C4 的脚本,但是运行这些脚本大概需要数千刀。
  4. C4 是以 Common Crawl 2019 年 4 月的 snapshot 为基础创建的,使用了很多 filter 来过滤文本。
  5. 这些 filter 的作用包括:
    1. 删除没有 terminal punctuation mark 的行。
    2. 删除少于 3 个词的行。
    3. 删除少于 5 个句子的文档。
    4. 删除包含包含 Lorem ipsum 这种 placeholder 文本的文档。
    5. 删除包含“List of Dirty, Naughty, Obscene, or Otherwise Bad Words”中任何单词的文档。
    6. 删除非英文文档,非英文的标准是使用 langdetect 得到的英文概率小于 0.99,所以 C4 主要是英文文档。
  6. 应用了 filter 的数据集版本叫 C4.EN,没应用的叫 C4.EN.NOCLEAN,没有使用 blcoklist 的 C4.EN 叫 C4.EN.NOBLOCKLIST。三个版本的简单统计如下图,其中 token 数是用 spacy 的 English tokenizer 分词后统计的:
  7. 来源网址中,按 TLD(top-level domains)统计,前三名是 .com、.org、.co.uk,其中 .gov 和 .mil 占比也不少,后者尽管不在 top25 中,但是也有 33 百万 token。
  8. 按网站统计,前三名是 patents.google.comen.wikipedia.comen.m.wikipedia.com
  9. 按发表时间统计,92% 都发表在数据集收集前的一个十年中(2011-2019),分布是长尾分布 long-tailed,大部分都在数据收集前的 10-20 年间。这是从 C4.EN 中采样得来的,采样大小为 1 百万。发表时间是按照该网址被 Internet Archive 首次索引收录的时间算的,所以真实发表时间实际更早一点。
  10. 按地理位置统计,作者使用了一个 IP-country 数据库,从原始数据集中随机采样了一个大小为 17 万 5 千的样本集。前五名是美国(51.3%)、无法分辨、德国、英国和加拿大。中国排在第 18,香港排在第 16。值得注意的是,按人口算第 2、3、4 大说英语的国家——印度、巴基斯坦、尼日利亚、菲律宾,在数据集中占比只有美国的 3.4%、0.06%、0.03%、0.1%,尽管他们有数千万人说英语。
  11. C4 包含大量机器生成的文本,machine-generated text,主要包括专利的机器翻译和 ocr 文本。前面说过,按网站统计 patents.google.com 排第一,这是专利网站,Google 会使用机器翻译模型翻译非英文专利,也会使用 ocr 将扫描文本识别出来。识别哪些文本是机器生成的也是一个活跃的研究领域。
  12. C4 中存在 benchmark data contamination 现象,即下游任务的训练集或测试集出现在 C4 中,造成了数据污染。具体来说,分为两种情况:input-and-label contamination 和 input contamination。
  13. 一些 seq2seq 任务的 label 其实就是 input 中的文本,例如抽取式摘要,如果这种任务的 input 出现在了预训练数据集中,那么其 label 也相当于出现在了预训练数据集中,那么我们有理由认为模型实际上只是在背书而没有做真正的推理。作者分析了 3 个生成式任务的7个数据集,发现均有不同程度(1.87-24.88%)的污染,target 文本为单句的匹配率(完全匹配)要明显高于多句。
  14. Input contamination 同样会对下游任务造成影响。作者发现有 2-50% 的 GLUE input 出现在 C4 中。对于分类任务来说,虽然不包含 label 的训练集出现在 C4 中并不影响最终性能,但是对 zero-shot 和 few-shot 来说,这仍然是一个值得慎重对待的问题。
  15. C4 带有明显的种族偏见,“Jewish”更容易与积极情绪挂钩,而“Arab”更容易与消极情绪挂钩。
  16. 对被排掉的文档进行随机抽样,得到 10 万份文档,然后进行 k-means 聚类,k=50,使用 TF-IDF 进行 embedding,然后使用 PCA 进行降维可视化。但最终发现只有 16 个类,且三分之一的是性相关文档。
  17. 相比于种族,提及性取向的文档更有可能被排除,例如 lesbian 和 gay。这个结论是通过计算点互信息 PMI 得到的。
  18. 非裔美国英语 AAE 和西班牙裔美国英语 Hisp 更有可能被排除。
  19. 许多被排除的文档并不包含 offensive 和 sexual 内容。
  20. 97.8% 的 C4.EN 是白人英语 WAE,AAE 和 Hisp 分别只有 0.07% 和 0.09%。
  21. 在创建数据集的过程中,评估 bias 很重要。
  22. 在清洗 web-crawled 数据时,作者反对使用黑名单的方法来排除文档。
  23. 作者分析的是 C4.EN,所以本文结论可能并不适合其他语言。
  24. GPT-3 的作者在训练完成之后,才发现存在 benchmark contamination。由于重新训练非常昂贵,他们没有重新训练,转而分析不同任务受到该现象的影响,发现确实会影响相关 benchmark 的性能。

C4 数据集基本信息速览相关推荐

  1. 【AI视野·今日CV 计算机视觉论文速览 第165期】Mon, 21 Oct 2019

    AI视野·今日CS.CV 计算机视觉论文速览 Mon, 21 Oct 2019 Totally 34 papers ?上期速览✈更多精彩请移步主页 Interesting: ?****基于立体视觉的三 ...

  2. 【今日CV 计算机视觉论文速览 第130期】Thu, 13 Jun 2019

    今日CS.CV 计算机视觉论文速览 Thu, 13 Jun 2019 Totally 39 papers ?上期速览✈更多精彩请移步主页 Interesting: ?LED2Netz照明条件估计的去雾 ...

  3. 【AI视野·今日CV 计算机视觉论文速览 第159期】Tue, 24 Sep 2019

    AI视野·今日CS.CV 计算机视觉论文速览 Tue, 24 Sep 2019 Totally 67 papers ?上期速览✈更多精彩请移步主页 Interesting: ?基于层次点和边缘交互的网 ...

  4. 【今日CV 计算机视觉论文速览 第135期】Mon, 24 Jun 2019

    今日CS.CV 计算机视觉论文速览 Mon, 24 Jun 2019 Totally 16 papers ?上期速览✈更多精彩请移步主页 Interesting: ?RGB-D摄像头的稀疏深度图补全, ...

  5. 【今日CV 计算机视觉论文速览 第149期】Tue, 30 Jul 2019

    今日CS.CV 计算机视觉论文速览 Tue, 30 Jul 2019 Totally 77 papers ?上期速览✈更多精彩请移步主页 Interesting: ?MaskGAN人脸属性操作的新方法 ...

  6. .NET平台开源项目速览(2)Compare .NET Objects对象比较组件

    原文:.NET平台开源项目速览(2)Compare .NET Objects对象比较组件 .NET平台开源项目速览今天介绍一款小巧强大的对象比较组件.可以更详细的获取2个对象的差别,并记录具体差别,比 ...

  7. DataWorks功能实践速览 05——循环与遍历

    简介:DataWorks功能实践系列,帮助您解析业务实现过程中的痛点,提高业务功能使用效率!通过往期的介绍,您已经了解到在DataWorks上进行任务运行的最关键的几个知识点,其中上期参数透传中为您介 ...

  8. 【AI视野·今日CV 计算机视觉论文速览 第164期】Fri, 18 Oct 2019

    AI视野·今日CS.CV 计算机视觉论文速览 Fri, 18 Oct 2019 Totally 30 papers ?上期速览✈更多精彩请移步主页 Interesting: ?****医学图像语义分割 ...

  9. 【AI视野·今日CV 计算机视觉论文速览 第162期】Fri, 27 Sep 2019

    AI视野·今日CS.CV 计算机视觉论文速览 Fri, 27 Sep 2019 Totally 55 papers ?上期速览✈更多精彩请移步主页 Interesting: TODO(rjj): de ...

最新文章

  1. android 中改变按钮按下时的颜色
  2. 英特尔史上最大收购!英特尔拟300亿美元收购GF,审批成关键!
  3. QT中Widget去除系统提供工具以及系统默认边框
  4. Cobbler Web界面提示报错 “Internal Server Error”
  5. 只显示小方格_不妨谈谈二维方格子吧
  6. C#打开文件和文件夹
  7. rediscli shell_redis shell
  8. 安装centos7系统
  9. 工作的准备:atoi,itoa,strcpy,memcpy,strcmp,二分查找,strcat
  10. 【MVC5】对MySql数据库使用EntityFramework
  11. typecho图标_使你的Typecho支持Emoji表情
  12. 监管科技崛起:从FinTech到RegTech
  13. 你知道哪些苹果自家应用采用 Swift 语言编写吗?
  14. PuttyPsftp
  15. php 判断微信浏览器支付宝,PHP判断是手机端-PC端-微信浏览器
  16. sql查看服务器版本信息,怎么查看SQL Server2000的版本号
  17. Guided backpropagation
  18. win7分区c盘调整容量_深度学习 | win7与ubuntu 18.04双系统安装教程
  19. mac 上最好用的SSH终端FinalShell
  20. 计算机显示器文字不清楚,笔记本电脑字体显示不清晰解决方法分辨率和显卡驱动...

热门文章

  1. 分享一款学生、工程师多功能计算器
  2. Nginx配置实例-动静分离
  3. 华硕 内存条 不同步_双11还没到,价格战就已打响,酷兽RGB灯条直接杀价至379元|内存条|内存|台式机|酷兽|rgb...
  4. 无人机、无人车仿真软件AirSim默认传感器设置
  5. ---Warkey 界面修改手记
  6. Android Linux换核 + goldfish环境搭建
  7. c语言第九章作业百科园,C语言上机题库百科园第章 南信大
  8. QR扫码综合示例教程(二十二)Qt5.15.2+Qt6.2.1(qml)+opencv4.5.4解决扫码聚焦、闪光灯(多线程、微信扫码)
  9. [喵咪开源软件推荐(3)]全球IP库-GeoLite2-City
  10. EJB3 helloworld