ChatGPT 的爆火证明了大型语言模型(LLM)在生成知识和推理方面的能力。不过,ChatGPT 是使用公共数据集进行预训练的模型,因此可能无法提供与用户业务相关的特定答案或结果。

那么,如何使用私有数据最大化发挥 LLM 的能力?LlamaIndex 可以解决这一问题。LlamaIndex 是一个简单、灵活、集中的接口,可用于连接外部数据和 LLMs。

近期,Zilliz 与 LlamaIndex 梦幻联动,举办了一次干货满满的网络研讨会。会上,LlamaIndex 的联合创始人兼首席执行官 Jerry Liu 向大家介绍了如何使用 LlamaIndex 通过私有数据提升 LLM 能力。

LlamaIndex:使用私有数据增强 LLM 的神器

“如何使用私有数据增强 LLM”是困扰许多 LLM 开发者的一大难题。在网络研讨会中,Jerry 提出了两种方法:微调和上下文学习。

所谓“微调”是指使用私有数据重新训练网络,但这个方案成本高昂,缺乏透明度,且这种方法可能只在某些情况下才有效。另一种方法是上下文学习。“上下文学习”是指将预训练模型、外部知识和检索模型相结合。这样开发者就能在输入 prompt 的过程中添加上下文。不过,结合检索和内容生成,检索上下文、管理海量源数据方面都会让整个过程显得困难重重,LlamaIndex 系列工具正好可以解决这些问题。

开源工具 LlamaIndex 能够为 LLM 应用提供中央数据管理和查询接口。LlamaIndex 系列工具主要包含三个组件:

  • 数据连接器——用于接收各种来源的数据。

  • 数据索引——用于为不同应用场景调整数据结构。

  • 查询接口——用于输入 prompt 和接收经过知识扩展后生成的结果。

|LlamaIndex 的三个主要组件

LlamaIndex 也是开发 LLM 应用的重要工具。它像一个黑匣子,接收详细的查询描述,返回相应回答和丰富的参考资料。LlamaIndex 还可以管理语言模型和私有数据之间的应用集成,从而提供准确的结果。

|整个应用流程中的LlamaIndex

LlamaIndex VS 向量检索

LlamaIndex 向量索引的工作原理

LlamaIndex 支持各种索引,包括列表索引、向量索引、树索引和关键字索引。Jerry 在网络研讨会中以向量索引为例,展示了 LlamaIndex 索引的工作原理。向量索引是一种常见的检索和数据整合模式,它能将向量存储库与语言模型进行配对。LlamaIndex 向量索引先接收一组源文档数据,将文档切分成文本片段,并将这些片段存入内置的向量存储库里,每个片段都有相应的向量与之对应。当用户进行查询时,查询问题先转化为向量,然后在向量存储系统中检索 top-k 最相似的向量数据。后续,这些检索出来的相似向量数据将在相应合成模块中用于生成结果。

|LlamaIndex 接收数据

|通过向量存储系统查询

对于在 LLM 应用中引入相似性检索有刚需的用户而言,向量存储系统的索引是最好的选择。这种索引类型非常适合语义相似性检索,因为它可以比较不同文本。例如,向量存储索引适合搭建问答机器人,回答各种关于特定开源项目的问题(参考 OSSChat)。

集成 Milvus 和 LlamaIndex

LlamaIndex 集成十分多样且轻量。在本次网络研讨会中,Jerry 强调了 Milvus 和 LlamaIndex 的集成(参考:https://milvus.io/docs/integrate_with_llama.md)。

开源向量数据库 Milvus 可以处理数百万、数十亿甚至数万亿规模的向量数据集。在这个集成中,Milvus 承担了后端向量库的角色,用来存储文本片段和向量。集成 Milvus 和 LlamaIndex 也十分简单——仅需输入几个参数,在向量存储环节中加入 Milvus,通过查询引擎便可获得问题答案。

当然,作为提供全托管云原生 Milvus 服务的 Zilliz Cloud 同样支持集成 LlamaIndex

LlamaIndex 应用案例

在网络研讨会中,Jerry 还分享了许多 LlamaIndex 的典型应用场景,包括:

  • 语义搜索

  • 总结归纳

  • 文本转化为 SQL 结构化数据

  • 合成异构数据

  • 比较/对比查询

  • 多步骤查询

更多用例详情,可以点击观看视频讲解。

精彩问答集锦

  1. 如何看待 OpenAI 的插件?如何使用 OpenAI 插件与 LlamaIndex 协同合作?

Jerry Liu: 这是个好问题。一方面,我们其实就是 OpenAI 的插件之一,可以被任何外部代理调用,无论是 ChatGPT 还是 LangChain,任何外部代理都可以调用我们。客户端代理将一个输入请求发送给我们,我们以最佳的方式执行。比如,在 ChatGPT 的 chatgpt-retrieval-plugin 仓库里就可以找到我们的插件。另一方面,从客户端的角度而言,我们支持与任何软件服务集成,只要这个服务是 [chatgpt-retrieval-plugin] 插件。

  1. 您提到了性能和延迟方面的 tradeoff。在这一方面,你们遇到过哪些瓶颈或挑战?

Jerry Liu: 如果上下文更丰富、文本块更大,延迟也会更高。有人认为文本块越大,生成的结果越准确,也有人持怀疑态度。总之,文本块大小是否影响性能结果还存在争议。

GPT-4 在处理提供更多上下文的问题时就比 GPT-3 的表现要好。但总的来说,我认为文本块大小和性能结果还是正相关的。另一个权衡是任何高级 LLM 系统都需要用链式方法进行调用,这样一来执行所需时间也会变长。

  1. 如果使用外部模型来执行查询,传输私有数据是否安全?

Jerry Liu: 这取决于使用的 API 服务。例如,OpenAI 不会使用 API 数据来训练或者优化其模型。但一些企业仍然会担心 OpenAI 向第三方发送敏感数据。因此,我们最近新增了 PII 模块来应对这一问题。还有一种解决方法就是使用本地模型。

  1. 以下两种方法的优缺点分别是什么?方法一:在 LlamaIndex 上加载数据和建索引之前,利用如 Milvus 之类的向量数据库进行相似性检索和图索引优化。方法二:使用 LlamaIndex 原生的 vector store 集成?

Jerry Liu: 两种方法都可以。我们正在计划整合这两种方法。敬请期待。

如果使用 Milvus 加载数据,用户可以在现有数据上使用 LlamaIndex。如果使用 LlamaIndex 中由 Milvus 提供的向量索引,我们会根据现有数据,重新定义数据结构。前者的好处是用户可以直接使用现有数据,后者的好处是可以定义元数据。

  1. 我需要在本地分析大约 6,000 个 PDF 和 PowerPoint 文件。如果不使用 OpenAI 和 LlamaIndex 的 llama65b 模型,我如何才能获取最佳分析结果?

Jerry Liu: 如果你可以接受 Llama 的许可证,那我还是建议尝试使用 Llama。

点击查看 GitHub 上的开源模型。

LlamaIndex 联合创始人下场揭秘:如何使用私有数据提升 LLM 的能力?相关推荐

  1. GrowingIO联合创始人陈明的15个数据分析方法论

    图丨GrowingIO联合创始人&运营副总裁 陈明 [数据猿导读] 无论是产品.市场.运营还是管理者,必须反思数据本质的价值在哪里?你和你的团队可以学习到什么?面对海量数据,该怎么办?对于具体 ...

  2. 谈及未来的 AI, 也许你已身处其中 —— 记 InfoQ 对青云QingCloud 联合创始人林源的采访...

    AI(人工智能)一词,可能早已经烂大街了,说起它,桥下贴膜的小哥也能和你说出个一二三来.这是一个玩笑,但也说明 AI 的火热.而 AI 技术以计算.数据.算法为三大基础,若没有云计算产业的成熟,AI ...

  3. AWS 聘用 Rust 编译器联合创始人,大企为何都爱 Rust?

    整理 | 夕颜 图源 | 视觉中国 出品 | CSDN(ID:CSDNnews) 近日,AWS开源团队在一篇帖子中低调宣布,已聘用Rust编译器联合创始人Felix Klock.加入AWS后,他将与于 ...

  4. 《Miss Talk》第07期:对话拓课云联合创始人兼CTO 王晓伟

    拓课云联合创始人兼CTO 王晓伟 清华大学计算机应用与科学学士,原北京众望网络科技有限公司创始人 CEO ,高级架构师,有着近二十年音视频开发经验,早期曾担任北京威速科技有限公司研发总监.技术副总裁, ...

  5. 《Miss Talk》第08期:对话桥吧英语联合创始人兼CTO 于双印

    于双印 桥吧英语联合创始人.CTO 于双印,北航硕士,PMP,十年IT行业一线从业经历,技术驱动管理的Manager.曾服务于南天信息.国电.安邦集团等大型企业的核心技术部门和核心业务,技术经历涵盖银 ...

  6. Kyligence联合创始人兼CTO李扬:用智能数据云打造全链路数字化转型

    "本文由 Kyligence联合创始人兼CTO李扬 撰写并投递参与由数据猿&上海大数据联盟联合推出的"行业盘点季之数智化转型升级"大型主题策划活动之<202 ...

  7. 王峰十问Nervos联合创始人王宁宁:缘何“中国最懂以太坊的人”要走中国公链的自主创新之路?...

    本文旨在传递更多市场信息,不构成任何投资建议. 文 | 王峰十问 出品 | 火星财经APP(ID:hxcj24h) 11月7日晚8点,王峰十问第36期"惊蛰:中国公链如何实现自主创新&quo ...

  8. Kubernetes联合创始人Brendan Burns:K8s让企业上云更容易

    此文转载自:https://my.oschina.net/u/2663968/blog/4767800 大咖揭秘Java人都栽在了哪?点击免费领取<大厂面试清单>,攻克面试难关~>& ...

  9. 个人掏5000万美元、获2.3亿美金认购,造中国版OpenAI,45岁前美团联合创始人王慧文再创业!...

    整理 | 苏宓 出品 | CSDN(ID:CSDNnews) 「即便只有一个人,我也要出发」,2023 年 2 月 13 日,原美团联合创始人王慧文在社交媒体平台郑重地说道. 这一次他的目光不再是聚焦 ...

最新文章

  1. mysql 连接器配置_配置连接器 - 金融分布式架构 SOFAStack - 阿里云
  2. quart动态执行定时任务
  3. HQL中的substring
  4. 《SpringBoot揭秘 快速构建微服务体系》读后感(三)
  5. iOS-cocoapods使用方法
  6. [转] css3变形属性transform
  7. 多线程安全小结-可见性(内存屏障,共享变量副本)、原子性、有序性(编译器优化、cpu流水线乱序)
  8. 关于matlab浮点转定点总结
  9. andriod 自定义来电界面功能
  10. zotero无法同步caj文件 attachments skipped because they are top-level items, file does not exist
  11. 华为2012实验室(北京)工作机会
  12. 理解v8的Isolate调度
  13. HTML和Css基础知识点笔记
  14. Q版本 安卓手机录制系统声音
  15. 数据分析基础篇---统计学基础
  16. C语言程序设计第四次作业——选择结构(2)
  17. mysql最左前缀概念_mysql查询优化之目录类型、最左前缀
  18. 产品学习笔记(产品分析报告篇)
  19. java 前置系统报文通讯方式_银行核心与前置系统的区别
  20. SpringCloud分布式开发五大神兽(转)

热门文章

  1. 关于DMA和它的仇家
  2. 华为WATCH Buds耳机连接不稳定出现听歌卡顿或断音应该怎么办?
  3. 2019年二级造价工程师视频课件百度云网盘下载
  4. 在Ubuntu下如何压缩一个文件夹,如何查看文件夹大小
  5. 眼睛php是什么手术,眼睛什么情况下要做手术
  6. About 12.18 This Week
  7. 含计算机毕业设计论文+PPT+源码等]精品基于SpringCloud实现的商品服务系统-微服务-分布式疫情下的购物商城
  8. android 绘画开源,Android 开源可缩放平移的绘画板
  9. 用js制作表格的新增,修改和删除等功能
  10. python 读取多个yaml文件_Python读取yaml文件多层菜单