研究背景

常用的生成模型

下表总结了现在常用的生成模型的架构、参数量、尺寸和开源地址。其中参数量基本为亿万级别,以decoder的架构为主,模型尺寸在500MB以上。

模型名称 架构 尺寸 层数 参数量(Billion) 开源地址 备注
GPT-2 decoder 548 MB 48 1.5B https://huggingface.co/gpt2/tree/main 相对较小的生成模型
GPT-Neo-2.7B decoder 10.7 GB 32 2.7B https://huggingface.co/EleutherAI/gpt-neo-2.7B/tree/main
pythia-160M decoder 375 MB 12 160Million https://huggingface.co/EleutherAI/pythia-160m/tree/main 等价于GPT-Neo 125M, OPT-125M
Pythia-12B decoder 23.85 GB 36 12B https://huggingface.co/EleutherAI/pythia-12b/tree/main 256 40G A100
OPT-1.3B decoder 2.63 GB

【调研】生成式PLM模型(偏LLM)压缩相关推荐

  1. NLP-生成模型-2016-生成式摘要模型:Seq2Seq+Attention+Copy【Pointer网络的Copy机制解决Decoder端的OOV问题】【抽取式+生成式】【第一个生成式摘要模型】

    <原始论文:Abstractive Text Summarization Using Sequence-to-Sequence RNNs and Beyond> Seq2Seq(BiGRU ...

  2. ChatGPT is not all you need,一文看尽SOTA生成式AI模型:6大公司9大类别21个模型全回顾(三)

    文章目录 ChatGPT is not all you need,一文看尽SOTA生成式AI模型:6大公司9大类别21个模型全回顾(三) Text-to-Text 模型 ChatGPT LaMDA P ...

  3. 一种镜像生成式机器翻译模型:MGNMT | ICLR 2020满分论文解读

    MGNMT:镜像生成式NMT (ICLR 2020满分论文) 机构:南京大学,字节跳动 点此获取"论文链接" 一.摘要 常规的神经机器翻译(NMT)需要大量平行语料,这对于很多语种 ...

  4. 模型转换、压缩、加速工具

    20210618 sky_hole: 回成都工作了吗?wang shi yang: 嗯 我现在已经在成都上班了sky_hole: 不用付费,我之前发你的视频你好好看看就可以入门了sky_hole: 成 ...

  5. 老码农眼中的大模型(LLM)

    即便全力奔跑,也不一定能跟上时代的步伐.但如果失去了学习的动力,很可能会被时代淘汰.而且,当时代淘汰我们的时候,往往不会有任何预警.基于大模型的 ChatGPT 给我们带来了极大的震撼,那么什么是大模 ...

  6. 基于昇腾AI,空天院携手华为共同发布全球首个面向跨模态遥感数据的生成式大模型“空天.灵眸”

    8月20日,在中国图象图形大会的华为昇思MindSpore技术论坛上,中国科学院空天信息创新研究院(以下简称"空天院")发布了首个面向跨模态遥感数据的生成式预训练大模型" ...

  7. 深度学习——模型量化、压缩及加速( MobileNets )

    参考: https://blog.csdn.net/u013082989/article/details/77970196 https://blog.csdn.net/wfei101/article/ ...

  8. 【大模型】Lamini:用于快速定制模型的 LLM 引擎 | Introducing Lamini, the LLM Engine for Rapidly Customizing Models

    https://lamini-ai.github.io/ 目录 Available now: a hosted data generator for LLM training

  9. 【LLM大模型】模型和指令微调方法

    note Hugging Face 的 PEFT是一个库(LoRA 是其支持的技术之一,除此之外还有Prefix Tuning.P-Tuning.Prompt Tuning),可以让你使用各种基于 T ...

最新文章

  1. Python学习之使用Python生成PDF报告
  2. html怎么调用微信api接口,JFinal Weixin 学习笔记(6)-- 获取微信接口调用凭据
  3. 【Linux开发】linux设备驱动归纳总结(四):5.多处理器下的竞态和并发
  4. Linux查看swap使用情况小脚本
  5. 2019年湘潭大学程序设计竞赛(重现赛)
  6. golang 根据基础的url下载静态服务器上所有的文件
  7. 动态规划(冬令营课堂笔记)
  8. Wireshark数据包分析(一)——使用入门
  9. mysql fsync_MySQL - InnoDB特性 - Buffer Pool漫谈
  10. 手机端连线题html5,基于Canvas的html5连线题
  11. Real-Time Rendering——Chapter 10Local Illumination局部照明
  12. GIS学习(一):密度分析、可达性分析、空间句法
  13. EasyUI给databox,timebox赋予当前时间
  14. android第三方播放器--饺子播放器的使用
  15. 利用决策树对微信公众号文本进行分类
  16. 计算机上面的按键作用,鼠标侧键有什么用 鼠标上各按键的功能是什么
  17. 解决:el-table组件中设置show-overflow-tooltip属性,数据过多时闪烁不显示不能复制问题。
  18. Encyclopaedia Britannica Ultimate 2014电子版下载|大不列颠百科全书
  19. 图像旋转中点的公式推导
  20. python---POST/GET请求数据包,图片验证码自动化识别,pytesseract,模拟用户一次正常登录

热门文章

  1. NOJ [1211] 无聊的three-god
  2. window route 路由表
  3. 重修-龙珠计划机器学习训练营task1-part2学习笔记
  4. Kubernetes之DNS
  5. KMM(Kotlin Multiplatform Mobile)环境搭建
  6. 如何运行.jsp文件
  7. 2019年台湾饭店业务盘点
  8. CSDN写博客markdown超牛逼的功能
  9. 直流有刷电机电流环相关问题说明
  10. python transitions库 表示状态机