论文笔记--PANGU-α: LARGE-SCALE AUTOREGRESSIVE PRETRAINED CHINESE LANGUAGE MODELS WITH AUTO-PARALLEL COMPUTATION

  • 1. 文章简介
  • 2. 文章概括
  • 3 文章重点技术
    • 3.1 Transformer架构
    • 3.2 数据集
      • 3.2.1 数据清洗和过滤
      • 3.2.2 数据去重
      • 3.2.3 数据质量评估
  • 4. 文章亮点
  • 5. 原文传送门
  • 6. References

1. 文章简介

  • 标题:PANGU-α: LARGE-SCALE AUTOREGRESSIVE PRETRAINED CHINESE LANGUAGE MODELS WITH AUTO-PARALLEL COMPUTATION
  • 作者:Zeng, Wei, et al.
  • 日期:2021
  • 期刊:arxiv preprint

2. 文章概括

  文章提出了中午领域的大语言模型PANGU- α \alpha α。模型在1.1TB的中文数据上训练,参数为2000亿。为了支撑模型训练,文章提出了一种Auto-parallel的训练方式。

3 文章重点技术

3.1 Transformer架构

  和GPT等其它大语言模型一样,PANGU- α \alpha α选择使用Transformer作为神经网络的架构。为了使得模型更精准地预测下一个token,文章在最后一个Transformer层后面增加了一个Query层。传统Transformer的注意力分数计算方式为 A = Q K T = H L W Q W K ⊺ H L ⊺ A = QK^T = H_LW^Q{W^K}^\intercal H_L^\intercal A=QKT=HL​WQWK⊺HL⊺​,改良后的注意力分数表达式为为 A = p n W Q W K ⊺ H L ⊺ A =p_nW^Q{W^K}^\intercal H_L^\intercal A=pn​WQWK⊺HL⊺​,其中 p n p_n pn​表示query层(位置编码)表示将位置编码信息用于注意力机制的查询。

3.2 数据集

  很多文章已经论证了模型参数的增加对模型的表现能力提升有很大帮助,但在增加模型参数的同时需要增加数据集来支撑参数的训练。为了获得大量的中文数据集,文章进行了数据收集、数据清洗、数据过滤和数据去重多个步骤,具体流程见下图。

3.2.1 数据清洗和过滤

  语料库中大量的数据是来自于Common Crawl的文本,质量无法保证,文章首先对数据集进行了清洗工作:

  • 移除字符少于150或中文字符少于60%文档;移除仅包含网页标题集合的文档;
  • 移除特殊字符;移除每个文档中的重复段落;
  • 基于关键词识别广告,移除包含广告的文档;
  • 将繁体中文全部转化为简体中文;
  • 移除网页中的导航栏
       对上述清洗后的文档进行过滤以移除有害的、广告类的或低质量的文档:
  • 敏感词过滤:手动构建724个敏感词,移除包含超过3个敏感词的文档,从而保证模型不被有害网页误导。
  • 基于模型的垃圾信息自动过滤:基于标注数据训练一个FastText垃圾文档分类器,将FastText识别为垃圾文档的文档过滤。
  • 低质量文档过滤:类似GPT-3[1],训练一个分类器给每篇文档打分,过滤分数低于阈值的文档。

3.2.2 数据去重

  由于语料库中可能存在高度重叠的文档,我们采用模糊数据去重方法对过滤后的数据进行去重操作。为此,我们对MinHashLSH算法进行改良,设计了一种分布式的数据去重算法对数据集进行高效去重。

3.2.3 数据质量评估

  为了对文档进行上述的自动清洗和过滤,我们需要相应的清洗规则和过滤阈值。为此,我们迭代地进行上述预处理工作:在每次预处理之后根据评估结果更新清洗规则和过滤阈值。评估结果采用人工和模型自动选择两种方式:人工随机采样评估句子的脸骨感谢和低质量内容的数量从而进行规则调整。但人工评估的范围有限,从而我们从所有数据集中选择30GB的数据训练一个小型的PANGU-350M,并采用该模型评估所有训练数据得到PPL(perplexity),PPL越低的数据质量越高,从而相应的清洗规则越好,基于该原则我们选择最好的清洗规则和阈值。
  上述预处理过程之后,我们最后得到1.1TB的中文数据用于模型训练

4. 文章亮点

  文章采集了大量的中文数据,且对数据集进行了手工、自动的清洗、过滤、去重,基于预处理后的1.1TB中文数据进行模型训练,得到PANGU- α \alpha α大语言模型,模型在多个中文任务上表现超过GPT-3。此外为了加速训练过程,文章提出了一种AUTO-PARALLEL的训练方法,在大规模数据训练中可作为参考。

5. 原文传送门

PANGU-α: LARGE-SCALE AUTOREGRESSIVE PRETRAINED CHINESE LANGUAGE MODELS WITH AUTO-PARALLEL COMPUTATION

6. References

[1] 论文笔记–Language Models are Few-Shot Learners

论文笔记--PANGU-α相关推荐

  1. ORB-SLAM3 论文笔记

    ORB-SLAM3 论文笔记 这篇博客 ORB-SLAM3系统 相机模型的抽象(Camera Model) 重定位的问题 图片矫正的问题 视觉惯性SLAM的工作原理 相关公式 IMU初始化 跟踪和建图 ...

  2. 【论文笔记】 LSTM-BASED DEEP LEARNING MODELS FOR NONFACTOID ANSWER SELECTION

    一.简介 这篇论文由IBM Watson发表在2016 ICLR,目前引用量92.这篇论文的研究主题是answer selection,作者在这篇论文基础上[Applying Deep Learnin ...

  3. 最新图神经网络论文笔记汇总(附pdf下载)

    点击上方,选择星标或置顶,不定期资源大放送! 阅读大概需要15分钟 Follow小博主,每天更新前沿干货 [导读]近年来,图神经网络变得非常火热,每年顶会在该领域内都会出现大量的研究论文,本文为大家提 ...

  4. [论文笔记] Fast Quality Driven Selection of Composite Web Services (ECOWS, 2006)

    Time: 4.0 hours Jae-Ho Jang, Dong-Hoon Shin, Kyong-Ho Lee, "Fast Quality Driven Selection of Co ...

  5. 论文笔记之:Action-Decision Networks for Visual Tracking with Deep Reinforcement Learning

    论文笔记之:Action-Decision Networks for Visual Tracking with Deep Reinforcement Learning  2017-06-06  21: ...

  6. 光流 速度_[论文笔记] FlowNet 光流估计

    [论文笔记] FlowNet: Learning Optical Flow with Convolutional Networks 说在前面 个人心得: 1. CNN的光流估计主要是速度上快,之后的v ...

  7. 论文笔记 《Maxout Networks》 《Network In Network》

    原文出处:http://zhangliliang.com/2014/09/22/paper-note-maxout-and-nin/ 论文笔记 <Maxout Networks> & ...

  8. 论文笔记:HKMF-T: Recover From Blackouts in TaggedTime Series With Hankel Matrix Factorization

    论文笔记:Hankel Matrix Factorization for Tagged Time Series to Recover Missing Values during Blackouts_U ...

  9. 论文笔记 A Spatial-Temporal Decomposition Based Deep Neural Network for TimeSeries Forecasting

    0 abstract 空间时间序列预测问题出现在广泛的应用中,如环境和交通问题.由于存在特定的空间.短期和长期模式,以及维度的诅咒,这些问题具有挑战性. 在本文中,我们提出了一个用于大规模空间时间序列 ...

最新文章

  1. 17 个品牌,113 款 5G 手机,5G 离我们越来越近
  2. 通过网页查看服务器算法,服务器使用国密(SM2/SM3/SM4)证书,通过浏览器访问
  3. Ubuntu 11.10更新源地址列表更改方法及下载
  4. 使用 $.grep() 方法
  5. Oracle数据库之多行函数
  6. PHP几个防SQL注入攻击自带函数区别
  7. Android延伸布局到状态栏,Android 状态栏透明
  8. 都说程序员是吃青春饭!
  9. Qt GUI@学习日志
  10. linux打开文件vi,在Linux中使用vi打开文件时如何显示行号,及跳转到指定行
  11. IOS --xcode删除Provisioning Profiles文件
  12. python与office结合可以干什么-震惊!当Python遇到Excel后,将开启你的认知虫洞
  13. IIS出现问题报CS0016
  14. HDU 1242 特殊化带结构体BFS
  15. 计算机室火灾隐患表现,大学消防知识安全宣传图片系列六:计算机室、微机房的火灾隐患和消防须知...
  16. Android架构纵横谈之——软件自愈能力(转载)
  17. SC-GlowTTS论文阅读
  18. 十大著名黑客—— 凯文-米特尼克
  19. 【JS小知识】this的指向、工厂方法、构造函数及优化、prototype原型、forEach()的使用
  20. 什么叫智能服务器sn,一篇文章告诉你何为服务器端车牌智能识别

热门文章

  1. CUDA error: out of memory
  2. PHP中16进制和8进制
  3. 高中数学必修一函数及其表示知识点
  4. 树莓派2:树莓派刷机及串口,网络,ssh方式登录树莓派
  5. Git总结 (比较全)
  6. 根据帧率控制延时时间
  7. Silverlight中生动的火柴人动画
  8. 聚焦云原生安全|安全狗云甲荣膺CSA 2022安全金盾奖
  9. 七牛云王珂 直播分享 | 如何快速搭建智能化的统一日志管理系统
  10. 关于机械硬盘的 CMR 和 SMR 技术