Large Language Model (LLM) 即大规模语言模型,是一种基于深度学习的自然语言处理模型,它能够学习到自然语言的语法和语义,从而可以生成人类可读的文本。

所谓 "语言模型",就是只用来处理语言文字(或者符号体系)的 AI 模型,发现其中的规律,可以根据提示 (prompt),自动生成符合这些规律的内容。

LLM 通常基于神经网络模型,使用大规模的语料库进行训练,比如使用互联网上的海量文本数据。这些模型通常拥有数十亿到数万亿个参数,能够处理各种自然语言处理任务,如自然语言生成、文本分类、文本摘要、机器翻译、语音识别等。

本文对国内外公司、科研机构等组织开源的 LLM 进行了全面的整理。


LLaMA —— Meta 大语言模型

LLaMA 语言模型全称为 "Large Language Model Meta AI",是 Meta 的全新大型语言模型(LLM),这是一个模型系列,根据参数规模进行了划分(分为 70 亿、130 亿、330 亿和 650 亿参数不等)。

其中 LaMA-13B(130 亿参数的模型)尽管模型参数相比 OpenAI 的 GPT-3(1750 亿参数) 要少了十几倍,但在性能上反而可以超过 GPT-3 模型。更小的模型也意味着开发者可以在 P

开源 LLM (大语言模型)整理(一)相关推荐

  1. 【自然语言处理】【大模型】大语言模型BLOOM推理工具测试

    相关博客 [深度学习][分布式训练]DeepSpeed:AllReduce与ZeRO-DP [自然语言处理][大模型]BLOOM模型结构源码解析(单机版) [自然语言处理][大模型]极低资源微调大模型 ...

  2. 开源大语言模型(LLM)汇总(持续更新中)

    开源大语言模型(LLM)汇总 随着ChatGPT的火爆,越来越多人希望在本地运行一个大语言模型.为此我维护了这个开源大语言模型汇总,跟踪每天不发的大语言模型和精调语言模型. 我将根据个模型采用的基础大 ...

  3. 开源大语言模型完整列表

    开源大语言模型完整列表 Large Language Model (LLM) 即大规模语言模型,是一种基于深度学习的自然语言处理模型,它能够学习到自然语言的语法和语义,从而可以生成人类可读的文本. 所 ...

  4. 张俊林:由ChatGPT反思大语言模型(LLM)的技术精要

    文|张俊林 源|知乎@张俊林 导读:ChatGPT出现后惊喜或惊醒了很多人.惊喜是因为没想到大型语言模型(LLM,Large Language Model)效果能好成这样:惊醒是顿悟到我们对LLM的认 ...

  5. 由ChatGPT反思大语言模型(LLM)的技术精要

    人工智能与算法学习 作者:张俊林,   编辑:夕小瑶的卖萌屋 导读:ChatGPT出现后惊喜或惊醒了很多人.惊喜是因为没想到大型语言模型(LLM,Large Language Model)效果能好成这 ...

  6. 中文LLaMa和Alpaca大语言模型开源方案 | 扩充中文词表 针对中文语料进行高效编码

    欢迎关注『CVHub』官方微信公众号! Title: Efficient and Effective Text Encoding for Chinese Llama and Alpaca PDF: h ...

  7. 目前有哪些方式训练一个领域的大语言模型? Beyond One-Model-Fits-All A Survey of Domain Specialization LLM

    目前有哪些方式训练一个领域大语言模型?方法分类与调研 Origin Paper:Beyond One-Model-Fits-All: A Survey of Domain Specialization ...

  8. 开源大语言模型是否可以商用的调查报告

    开源大语言模型是否可以商用的调查报告 0. 背景 1. 调查结果 1.1 基础大模型(LLM) 1.2 对话大模型(ChatLLM) 1.3 多模态对话大模型(MultiModal-ChatLLM) ...

  9. 张俊林:由ChatGPT反思大语言模型(LLM)的技术精要(2)

    原文:张俊林:由ChatGPT反思大语言模型(LLM)的技术精要(2) 02 学习者:从无尽数据到海量知识 从目前研究结果看,Transformer是足够强大的特征抽取器,尚不需要做特别的改进.那么通 ...

最新文章

  1. C语言关键字、标识符和注释
  2. 网关是个啥?为什么电脑不设置网关就没法上网?笔记本为啥不用设置网关?
  3. Linux文本处理tr命令笔记
  4. java bag_Java - T---bag - 博客园
  5. 电脑休眠和睡眠的区别_关机、睡眠、休眠的区别
  6. 信息学奥赛一本通C++语言——1001:Hello,World!
  7. Java中使用JNA实现全局监听Linux键盘事件
  8. hmac sha256 php,PHP中的HMAC-SHA-256
  9. 以太网接入设备行业调研报告 - 市场现状分析与发展前景预测(2021-2027年)
  10. 后台程序全局钩子获取鼠标滚轮滚动方向(VB6.0)
  11. linux配置https站点
  12. Web前端开发-网页制作零基础入门-Dreamweaver2019+HTML+CSS视频教程
  13. NoViableAltException(379@[2389:1: columnNameTypeOrConstraint : ( ( tableConstraint ) | ( columnNameT
  14. C语言编程 判断某年某月有几天,C++自定义函数判断某年某月某日是这一年中第几天...
  15. 如何计算近似纳什均衡_网络与市场中的计算思维-5.博弈论的基本概念
  16. 什么是学习?如何学习?
  17. 小米电视安装 Plex 打造家庭影院
  18. 业内首家全线上碎股自助交易 富途证券:股数有多少,需求无大小
  19. 制作JavaCV应用依赖的基础Docker镜像(CentOS7+JDK8+OpenCV4)
  20. GPU与CPU比较,GPU为什么更适合深度学习?

热门文章

  1. chrome,ff浏览器默认行高
  2. java.io.IOException: setDataSource failed.: status=0x80000000问题的解决
  3. 电子商务mysql设计_设计电子商务数据库 – MySQL
  4. 换汤不换药--我看《Inception》(《盗梦空间》)
  5. 洲阁筛/Min25筛
  6. 【每日随笔】马太效应 ① ( 社会中的一些现象 - 富人/穷人 好学生/坏学生 | 马太效应由来 | 天之道与人之道 - 道德经 )
  7. 腾讯70亿元投资拼图 企鹅帝国“慢”之谜
  8. Android资源之String (四): plurals
  9. 函数cvRound,cvFloor,cvCeil用法
  10. 学习周报20200808 | 谷歌、领英都在用的OKR工作高绩效秘籍