Why is MoE

在现有的深度神经网络方法中,针对模型的输入,所有的参数都会参与计算。在预训练模型参数量变的越来越大的情况下,计算资源的需求也会变得巨大。而Mixture of Experts(MoE)改变了这种情况。MoE可以为不同的输入选择性地激活模型中的一部分参数参与计算,这样在增大模型参数量的同时,计算量可以维持相对不变。

一种典型的MoE框架由一个门控子网络(Gating network)和多个专家子网络(Expert odel)构成,门控网络为输入x计算各个专家网络输出所占的比重,然后采取加权求和的方式得到最终的输出。

另有使用门控子网络对输入进行路由选择,即根据各个专家网络对应的门控值(gating value),选择出Top-K个专家子网络参与当前输入的实际计算,这样可以显著降低计算量。

本文就基于MoE的思想,将Transformer中的前馈全连接子层(Feed-Forward Network,FFN)视为Expert,使用多个FFN代替原来单一的FFN,并且使用了最简单的路由选择策略,将K设置为1,即不同的输入只会选择一个FFN进行计算。这样相比较于原来的结构,计算量只增加了路由选择的计算量,而新增的计算量相比较于原来的计算量而言可以忽略,这样就实现了增大模型参数的同时维持相对不变的

深入解读首个万亿级语言模型 Switch Transformer相关推荐

  1. 深入解读首个万亿级语言模型Switch Transformer

    作者|AI Box 来源|RUC AI Box 本文深入解读了由 Google Brain 设计的名叫「Switch Transformer」的简化稀疏架构,可以将语言模型的参数量扩展至 1.6 万亿 ...

  2. 16000亿!谷歌发布人类历史首个万亿级模型 Switch Transformer,中国还有机会赶超吗?...

    新年伊始,大规模预训练模型军备竞赛进入万亿参数时代.  文:梦佳.周寅张皓.贾伟 近日,Google Brain的研究人员William Fedus.Barret Zoph.Noam Shazeer等 ...

  3. 超越Google,快手落地业界首个万亿参数推荐精排模型

    整理 | 兆雨 责编 | 阿司匹林 出品 | AI科技大本营 精准的推荐系统模型是很多互联网产品的核心竞争力,个性化推荐系统旨在根据用户的行为数据提供"定制化"的产品体验.国民级短 ...

  4. 1.9万亿参数量,快手落地业界首个万亿参数推荐精排模型

    2021-02-03 15:24:02 机器之心发布 机器之心编辑部 来,走近快手业界首个万亿参数推荐精排模型的内部构造. 个性化推荐系统旨在根据用户的行为数据提供「定制化」的产品体验,精准的推荐系统 ...

  5. 竞逐“AI医疗影像第一股”,万亿级赛道数坤科技有何“戏码”?

    医疗行业正加速向线上渗透. 据IDC统计数据显示,到2025年,世界人工智能市场总值将达到 1270 亿美元,其中医疗行业将占市场规模的 1/5,可见 AI 医疗健康的前景巨大.美国咨询公司弗罗斯特沙 ...

  6. 解密Elasticsearch技术,腾讯开源的万亿级分布式搜索分析引擎

    「免费学习 60+ 节公开课:投票页面,点击讲师头像」 作者 | johngqjiang,腾讯 TEG 云架构平台部研发工程师 来源 | 腾讯技术工程(ID:Tencent_TEG) [导读]Elas ...

  7. 万亿级日访问量下,Redis在微博的9年优化历程

    来自:DBAplus社群 讲师介绍 兰将州,新浪微博核心feed流.广告数据库业务线负责人,主要负责MySQL.NoSQL.TiDB相关的自动化开发和运维,参与Redis.counteservice_ ...

  8. 2021北京智源大会圆满闭幕,现场8千人,参会7万人,发布「悟道2.0」全球最大万亿级模型...

    句点,是下一行诗篇的开始. 6月3日晚上10点整,2021北京智源大会正式闭幕,为北京乃至中国人工智能发展画上浓重一点. 定位于"内行的AI盛会",北京智源大会以国际性.权威性.专 ...

  9. AI模型加速进入万亿级时代,中国AI算力独占全球三成

    来源:新智元本文约1400字,建议阅读6分钟<全球人工智能市场半年度追踪报告>重磅发布! [ 导读 ]IDC 2020H1<全球人工智能市场半年度追踪报告>(<World ...

最新文章

  1. 迷茫的未来,我们需要做些什么呢?
  2. ApplicationContextAware 接口
  3. Linux堆内存管理深入分析
  4. ckeditor4 php,CKEditor 4自定义下拉列表
  5. 00002-两数之和-leetcode-1.暴力法(枚举法),2.哈希表法,目前更新了枚举法
  6. 计算机软件乘除,基于单片机的智能计算机程序 可以实现加减乘除运算
  7. 大数据分析工具鄙视链:Python成老大,Excel小弟都称不上?
  8. iview上传文件案例
  9. 測试加入多级文件夹篇
  10. 检测SQL注入式攻击代码
  11. html+css仿写小米商城
  12. 4071 国际象棋(枚举)
  13. asp是什么, javascript和php,asp区别,什么是 JavaScript 引擎, nodejs和vuejs的关系,nodejs和javascript区别
  14. 计算机为什么无法访问公司共享文件夹,win10系统共享文件夹无法访问的详细方案...
  15. 解决:java.lang.IllegalStateExceptio:Underflow in restore - more restores than saves异常,Module闪退
  16. MobaXterm - 远程连接工具
  17. 后羿采集器怎么导出数据_数据采集教程_智能模式_如何设置自动导出_后羿采集器...
  18. NAND flash 基础知识
  19. “天鸽”袭港遇天鸽被沽空,最有力的证据还是业绩
  20. Cmpp发送wappush

热门文章

  1. 工业型交换机相比普通交换机有哪些要求?
  2. 【渝粤教育】国家开放大学2018年秋季 2202T公共行政学 参考试题
  3. 工业物联网的应用领域和方向
  4. spss三次指数平滑_17 统计学:SPSS基础
  5. Verilog基本语法初学
  6. sqlserver select 数值精度_SQL Server读懂语句运行 (二) SET STATISTICS IO ON
  7. matlab运行dxcv,MATLAB imresize 函数和 OpenCV resize 函数结果不同
  8. php滴滴平台接口,图片服务API文档
  9. java 调用scala 类_如何使用java类加载器调用带参数的scala函数?
  10. S3C2410 bootloader ----VIVI阅读笔记 (转)下