一、Meta 全新大语言模型 LLaMA 正通过种子公开发放

2 月 24 日,Meta 公司发布了新的大模型系列 —— LLaMA(Large Language Model Meta AI)。Meta 宣称,LLaMA 规模仅为竞争对手 ChatGPT 的“十分之一”,但性能却优于 OpenAI 的 GPT-3 模型。

并且,提到了“通过使用torrent更高效地分发,节省带宽”,github截图:

GitHub 链接:https://github.com/facebookresearch/llama/pull/73/files

对此,下面发表了不同的意见:

二、超越 ChatGPT,LLaMA 强在哪里?

文中指出,这个LLaMA名字的由来?反正Large Language Model Meta Artificial Intelligence缩写为LLMMAI,有点太接近LMAO了。我们可以将 LLMMAI 制作成该主题的各种变体,甚至有相当数量的咒骂。Large Language AI Model 会缩写为 LLAIM,这很有趣——“是的,我们正在使用来自 Facebook 的 LLAIM 基础模型”——显然是威尔士盖尔语,但你可以看到为什么 Meta Platforms 没有使用这些名称它的基础模型。“Large Language As Meta Ascertains”会让 LLAMA 成为现实,但它并不十分成功。这是一个想法:嘿元平台,你实际上可以使用人工智能想出一个更好的名字来打 LLAMA 缩写——不允许小写的“A”,那是作弊——或者更好的是,应用一些好的 ol' 人类智慧,想出一个允许双关式缩写的东西,但仍然很好感觉。

还指出,LLaMA 模型是根据世界上二十种最流行的拉丁语和西里尔字母表语言的文本进行训练的。论文LLaMA:Open and Efficient Foundation Language Models描述了该模型以及它与 GPT、Gopher、Chinchilla 和 PaLM 的比较。后一种模型利用了广泛的公共数据,但也有非公开可用或未记录的文本数据。LLaMA 专门针对公开可用的数据集进行培训,因此与开源兼容——尽管它本身尚未开源。

LLaMA 在某种意义上是对Training Compute-Optimal Large Language Models论文的直接反应,该论文于 2022 年 3 月发表,描述了 Chinchilla 模型及其竞争对手。并且在模型大小、计算预算、令牌数量、训练时间、推理延迟和性能方面进行了对比。

LLaMA 模型已使用 67 亿、130 亿、320 亿和 652 亿个参数进行训练,其中两个较小的参数使用 1 万亿个代币,两个较大的参数使用 1.4 万亿个代币。Meta Platforms 在 2,048 个 Nvidia“Ampere”A100 GPU 加速器和 80 GB HBM2e 内存上使用这 1.4 万亿个令牌测试了最大的 LLaMA-65.2B 模型,并且花费了 21 天(以每个 GPU 每秒 380 个令牌的速度)训练模型。这不是特别快。然而,Meta AI 研究人员表示,LLaMA-13B 模型“在大多数基准测试中都优于 GPT-3,尽管它的体积小了 1`09 倍。” 难点在于:“我们相信该模型将有助于使 LLM 的访问和研究民主化,因为它可以在单个 GPU 上运行。

还有许多性能测试的对比,下面图展示了各种模型在“常识推理”任务上的零样本表现:

Meta Platforms 显示了 LLaMA 在人文、科学、技术和数学、社会科学以及其他领域的多项选择测试中的测试结果。看看这张表:

下面更有趣的是,因为它显示了 LLaMA 在不同参数计数下如何在各种常识推理和问答基准上与 Chinchilla 模型相比较:

如您所见,LLaMA-33B 和 LLaMA-65B 可以与 Chinchilla-70B 抗衡,当代币数量达到 1 万亿甚至更多时超过它。

参考链接:

https://www.nextplatform.com/2023/02/28/move-over-chatgpt-meta-platforms-llama-makes-some-drama/

又一新闻,Meta研发了超越chatGPT的新平台LLAMA相关推荐

  1. pc游戏的未来在linux,新闻|Linux将成为电脑游戏的新平台?

    游戏厂商Valve早在2010年,已经表示过会推出Linux版的Steam平台,只是一直都没有实现.但最近Valve却一反常态,开始招揽Linux人材,务求把Linux打造成游戏平台,原因是Valve ...

  2. ERNIE源码学习与实践:为超越ChatGPT打下技术基础!

    ★★★ 本文源自AlStudio社区精品项目,[点击此处]查看更多精品内容 >>> ERNIE学习与实践:为超越ChatGPT打下技术基础! ERNIE是BERT相爱相杀的好基友,由 ...

  3. 文心ERNIE源码学习与实践:为超越ChatGPT打下技术基础!

    ERNIE学习与实践:为超越ChatGPT打下技术基础! ERNIE是BERT相爱相杀的好基友,由ERNIE发展起来的文心大模型,是GPT3.0的强劲竞争对手,未来还会挑战ChatGPT的江湖地位! ...

  4. 医药研发产业新平台在从化

    医药研发产业新平台在从化 背景与痛点 2000年以来,随着居民生活质量提高以及人口老龄化加剧,中国市场对医药的需求快速增加.根据艾瑞推算,2020年中国医药市场需求将达到2.5万亿元,成为全球最大药物 ...

  5. 《花雕学AI》19:比较ChatGPT与新Bing在文章润色方面的应用优势与测试案例

    引言: 文章润色是指对已经写好的文章进行修改.优化或完善的过程,以提高文章的质量和效果.文章润色涉及到多方面的内容,如语言表达.逻辑结构.文献引用.格式规范等.文章润色对于提升写作水平.提高论文发表率 ...

  6. 智和信通:以自主研发的智和网管平台为基础,实现科研院所网络运维平

    随着科研院所的信息化建设,其自身IT环境日益复杂,自身网络运维难度巨大.同时,科研院所肩负着为相关单位提供技术.项目支撑的重任.在IT运维方面,若科研院所并未做过相关运维平台项目,针对运维平台从头进行 ...

  7. AMAZING PANDAVERSE:META”无国界,来2.0新征程激活时髦属性

    大火的"元宇宙"正站上风口,吸引着越来越多企业.资本的关注和追捧,各行各业对元宇宙的拥抱热情显著,2022年已然成为元宇宙元年.在这条赛道中,出现了一个极为耀眼的项目-- AMAZ ...

  8. 烽火完成高性能、高集成度、更节能、易用性更好的Purley新平台服务器研发

    作为"中国光谷"的核心企业,肩负中国通信产业国家队的重任,烽火正积极探索并加速ICT转型,积极布局互联网.云计算.大数据等新兴信息领域产业,在云应用.云平台领域已处于行业前沿水平. ...

  9. 本周AI热点回顾:和欧阳娜娜一起搞研发?强大的神经网络新算子involution,超越卷积、自注意力机制!...

    ‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍点击左上方蓝字关注我们 01 我和欧阳娜娜一起搞研发 AI新闻播报,开车明星导航,现如今根据文本生成语音的AI技术,那真是飞入寻常百姓家--见怪不怪了. 在这档口, ...

最新文章

  1. 测试笔试题之相关概念
  2. 如何用JavaScript操作form表单组件?
  3. 深入理解DOM事件机制
  4. docker-machine
  5. 物联网与零边际成本共享经济
  6. 二、PHP基础——连接msql数据库进行增删改查操作 实战:新闻管理项目
  7. Java 设计模式(3)单例模式
  8. pio代表什么_“PIO是什么的简称?PIO”是什么的 – 手机爱问
  9. won10qualcomm atheros无线网卡驱动安装不了
  10. html中英文换行,css控制HTML中英文换行
  11. MATLAB指纹识别算法实现
  12. 分治法 --- 大整数的乘法
  13. Android中将图片设为灰度(Kotlin)
  14. FFmpeg进阶:给视频添加文字水印
  15. 【转】Excel 使用技巧集锦——163种技巧
  16. Ambarella : 一家伟大的视频压缩处理芯片厂商
  17. 36线性映射03——线性空间的同构、同构的性质、线性同构
  18. excel如何晒出重复数据_怎么筛选出excel中重复数据
  19. history对象back()、forward()、go()方法
  20. [转]如何学习《离散数学》?

热门文章

  1. [遇到的问题]html中<script>标签无效
  2. 基金投资:招商中证白酒指数(LOF)A
  3. 基于阿里云的OSS文件上传和下载
  4. 组合递推公式证明(杨辉三角)
  5. matlab实现鬼波信号压制算法(附鬼波算法压制工具包)  代码实践--第一篇 频率-空间域自适应鬼波压制
  6. 微信小程序云开发快速入门手册-告别切图仔的时刻到了
  7. 直流电机制动matlab,毕业设计-S7-200直流电动机能耗制动及MATLAB仿真.doc
  8. 什么是资源?什么是资源的表述?
  9. imx6调试Lvds屏幕技术笔记
  10. #TCGA系列#利用perl提取一个文件夹中的多个文件夹里的注释文本