GPT1

出现在Bert之前,

gpt预训练的一个目标函数有两个,

第一个是基础的下一个词预测任务,选择一个K窗口,将窗口中的K个词的embedding作为条件去预测下一个词。

第二个是一个分类任务,一段话给一个标签,然后去预测这标签。

GPT2

GPT2是open ai为了回应bert,所做的一个反击,他首先是参数量大大增加了,bert large的参数总量也就是3.4亿,但是GPT2直接跳到了15亿,他的模型结构是基本没有变的,只是增加了层数参数,但是在模型架构训练目标函数上和1没有区别,他的卖点是 zero-shot也就是不需要微调,我的任何任务直接能拿来就用,正是因为zero-shot的设定,它没有在输入上加那些特殊符号,而是用一个text做前缀提示后续输入的形式,做法就是跟T5是一样的,可以看我上一篇文章。他的数据集是一个自己爬的超大的数据集。下面是它模型参数第一个设定,可以看出,非常大。

GPT3

3代模型就更大了,但是架构上他基本是就是按照12代做的,模型结构上区别也不大,模型训练和2也没太大区别,就是一个多任务的学习,GPT一共有1750亿个参数,模型大小是bert的上百倍,gpt3可以做zero-shot,也可以做one-shot,也可以做few-shot,顾名思义,一个是不需要微调,一个是用一个句子做微调,另一个是

[nlp] GPT T5相关推荐

  1. nlp gpt论文_gpt 3变形金刚和nlp的狂野世界

    nlp gpt论文 介绍(Introduction) The tech world is so full of fascinating demons. Every now and then, we g ...

  2. nlp gpt论文_GPT-3:NLP镇的最新动态

    nlp gpt论文 什么是GPT-3? (What is GPT-3?) The launch of Open AI's 3rd generation of the pre-trained langu ...

  3. 从word2vec开始,说下GPT庞大的家族系谱

    2020-10-05 10:57:15 机器之心分析师网络 作者:王子嘉 编辑:H4O 本文从从老祖级别的 word2vec 开始,从头到尾梳理了 GPT 的 「家谱」 和 word2vec 领衔的庞 ...

  4. 文本表示模型(1):主题模型LSA、pLSA、LDA

    目录 文本表示模型 主题模型 LSA pLSA LDA 文本表示模型 文本表示模型可分为以下几种: 基于one-hot, tf-idf, textrank等的bag-of-words: 基于计数的,主 ...

  5. 欺诈行为识别_使用R(编程)识别欺诈性的招聘广告

    欺诈行为识别 背景 (Background) Online recruitment fraud (ORF) is a form of malicious behaviour that aims to ...

  6. python中api_通过Python中的API查找相关的工作技能

    python中api 工作技能世界 (The World of Job Skills) So you want to figure out where your skills fit into tod ...

  7. nosql_探索NoSQL系列

    nosql 数据科学 (Data Science) Knowledge on NoSQL databases seems to be an increasing requirement in data ...

  8. python bokeh_提升视觉效果:使用Python和Bokeh制作交互式地图

    python bokeh Let's face it, fellow data scientists: our clients LOVE dashboards. Why wouldn't they? ...

  9. 广告投手_测量投手隐藏自己的音高的程度

    广告投手 As the baseball community has recently seen with the Astros 2017 cheating scandal, knowing what ...

最新文章

  1. centos7修改服务器密码,centos7 上搭建MQTT服务器,修改密码,设置权限并进行测试。...
  2. python基础入门:bytes 和 string转换的方法
  3. Python笔记-PyCharm远程连接到Linux进行代码同步并运行
  4. Android-7.0-Nuplayer概述
  5. IAR8.3 STM8安装过程
  6. 【今晚群分享预告】 58集团监控系统实践
  7. OpenBmc开发9:dts简介与使用
  8. [励志英语片段]practicing deliberately
  9. 本地简易股票量化回测框架
  10. python泰坦尼克号案例分析_利用python对泰坦尼克号数据集进行分析
  11. SiliconLab zigbee host移植到IPQ 807X平台
  12. java 子类克隆_Java 浅克隆、深克隆
  13. 微信小程序页面数量限制问题
  14. Tensorboard可视化
  15. 如何查看NVIDIA显卡显存使用率
  16. 友盟推送集成的常见问题
  17. 吴宗宪的35个BT经典台词
  18. 三分钟,我让搞后端的学弟爱上了Eolink
  19. 浙江省计算机三级网络技术2012秋,浙江省计算机三级网络技术历年真题完整版(含答案)(2005年到2012年).doc...
  20. 纺织厂布匹唛头标签快速打印系统

热门文章

  1. layui表格一个单元格放多个数据
  2. python创建一个字典、保存用户名和密码_Python实现生成密码字典的方法示例
  3. Vue 3 迁移策略笔记—— 第30节:新增功能——Teleport
  4. Python之父:GIL不是问题,是幸事
  5. 第二证券|系统性稳地产政策加力 租购并举制度加快建立
  6. 数据库windows验证连接不上解决方法
  7. ABAP SSCRFIELDS
  8. Connection Error:HTTPConnectionPool
  9. 15个grep应用实例
  10. 基本 LINQ 查询操作