AI快车道PaddleNLP系列直播课6|语义检索系统快速搭建落地
目录
1 搜索核心技术发展
1.1 基于字面匹配的检索流程
传统基于字面匹配的检索的痛点:
2 PaddleNLP语义检索系统
2.1 语义检索系统架构:recall+ranking
2.2 PaddleNLP语义检索系统的特色
2.3 PaddleNLP语义检索系统的召回阶段的核心技术
2.3.1 无监督对比学习SimCSE
2.3.2 有监督in-batch负采样
2.3.3 领域预训练优化
2.4 PaddleNLP语义检索系统的排序阶段的核心技术
2.4.1 排序技术
3 语义检索应用案例
4 实践:快速搭建语义检索系统
- 语义检索系统:不同于基于字面匹配检索,在语义层面的检索泛化效果更好。
- 语义检索系统方案的一些问题:用什么架构?各模块用什么模型?模型如何调优?有多少训练数据?训练数据的形式?语义检索效果如何自动化评估?等
- PaddleNLP语义检索系统给出的回答:架构:recall+ranking,模型:ERNIE-Gram,千万级无监督语料
1 搜索核心技术发展
- 基于规则的时代:需要人工写先验规则,效果一般
- 统计方法时代:基于字面匹配的方法
- 神经网络方法
- 预训练时代:预训练模型->端到端系统
1.1 基于字面匹配的检索流程
传统基于字面匹配的检索的痛点:
- 语义鸿沟:无法解决语义问题。
- 没有标注数据
- 不清楚语义检索系统方案
2 PaddleNLP语义检索系统
回答以上痛点问题
2.1 语义检索系统架构:recall+ranking
2.2 PaddleNLP语义检索系统的特色
- 简单易用:案例详细、一站式支持训练预测ann引擎和部署
- 没有标注数据也能做语义检索:(痛点2)
- 高性能
2.3 PaddleNLP语义检索系统的召回阶段的核心技术
2.3.1 无监督对比学习SimCSE
监督信号=语义相似的关系
如何构造监督信号:一句话多次进行随机编码,语义是相似的。此时的训练目标就是,让构造出来的向量与原来的接近,与其他的远离
2.3.2 有监督in-batch负采样
负例对的来源:与不相关的样例的搭配
2.3.3 领域预训练优化
2.4 PaddleNLP语义检索系统的排序阶段的核心技术
2.4.1 排序技术
ERNIE-gram做热启动,把正样本和query拼起来求相似度,负样本和query拼起来求相似度,最后的loss优化就是让正样本的相似度尽可能大,负样本的尽可能小
3 语义检索应用案例
根据用户看过的视频来推荐相关视频,全部短视频title生成语义向量,接下来就可以做召回了
是有语义泛化的效果
4 实践:快速搭建语义检索系统
AI快车道PaddleNLP系列直播课6|语义检索系统快速搭建落地相关推荐
- AI快车道PaddleNLP系列直播课5|RocketQA:预训练时代的端到端问答
目录 1 问答系统及应用 1.1 定义 1.2 应用 1.3 问答系统的分类 2 问答技术发展回顾 预训练时代的端到端问答: 3 端到端问答技术介绍 3.1 检索式问答 3.2 检索模型 3.2.1 ...
- AI快车道PaddleNLP系列直播课1|PaddleNLP助力万方优化搜索匹配
目录 一.搜索场景中的技术难点 二.技术选型与方案实施 2.1 相关性的两个维度 2.2 文本相关性 2.3 词向量模型 2.4 bert不能用 2.5 选择了表示模型和交互模型 2.6 senten ...
- AI快车道PaddleNLP系列直播课2|开箱即用的产业级NLP开发库
目录 一.PaddleNLP 二.PaddleNLP Taskflow 2.1 目标和意义 2.2 taskflow架构 2.3 taskflow三大特点 三.taskflow应用介绍 3.1 词法分 ...
- 企业经营私域运营的三大核心系列直播课
摩天,用友旗下社会化的企业数智化学习认证社区,提供数智营销.智慧医疗.数智金融.智能制造.项目管理等精品课程,数智化人才上摩天!https://mot.yonyou.com/ #企业经营私域运营的三大 ...
- paddlenlp Windows本地搭建语义检索系统
paddlenlp Windows本地搭建语义检索系统 一. 运行环境 软件环境: python >= 3.8.16 paddlenlp = 2.5.2 paddlepaddle-gpu =2. ...
- 搜索推荐系统[10]项目实战系列Z1:手把手教学(商品搜索系统、学术文献检索)语义检索系统搭建、召回排序模型详解。
搜索推荐系统专栏简介:搜索推荐全流程讲解(召回粗排精排重排混排).系统架构.常见问题.算法项目实战总结.技术细节以及项目实战(含码源) 专栏详细介绍:搜索推荐系统专栏简介:搜索推荐全流程讲解(召回粗排 ...
- 【MQTT从入门到提高系列 | 01】从0到1快速搭建MQTT测试环境
这是机器未来的第24篇文章 原文首发地址:https://blog.csdn.net/RobotFutures/article/details/125532208 1. mosquitto概述 Ecl ...
- 【解决方案】如何基于EasyDSS直播点播系统快速搭建VR直播平台?
一.项目背景 随着互联网的发展,传统的视频直播已经无法满足客户的个性化需求.而基于AI和VR的直播系统是未来直播发展的趋势.AR也就是增强现实(Augmented Reality)技术,可以运用三维建 ...
- 语义检索系统【二】:基于无监督训练SimCSE+In-batch Negatives策略有监督训练的语义索引召回
搜索推荐系统专栏简介:搜索推荐全流程讲解(召回粗排精排重排混排).系统架构.常见问题.算法项目实战总结.技术细节以及项目实战(含码源) 专栏详细介绍:搜索推荐系统专栏简介:搜索推荐全流程讲解(召回粗排 ...
最新文章
- 计算机专业美国最好的学校排名,美国计算机专业大学排名
- Python 全栈开发 -- 开发环境篇
- myeclipse 如何显示序号
- Momenta造“飞轮式”自动驾驶,4年内实现Robotaxi单车盈利,路线图首次公布
- JBoss下布署Spring2.5和Struts2系统
- 世界大学排名:12所中国大学科研实力进百强
- oracle 保留一个记录吗,笔记:Oracle查询重复数据并删除,只保留一条记录
- hdu 1075 map
- HDU - 4027 Can you answer these queries?(线段树)
- Django的Field(字段)
- SAPSQL_IN_ITAB_ILLEGAL_OPTION dump
- python模拟浏览器下载文件_模拟浏览器下载文件?
- Tool -- 01 -- xml与map相互转换
- Win7 Server 漏洞修复(CVE-2017-**、CVE-2018-**、CVE-2019-**、CVE-2012-**)
- html 语言包,语言包编辑
- 基于Java的办公用品管理系统的设计与实现
- 【linux内核分析与应用-陈莉君】时钟中断机制
- java 格式化时分秒_java整数(秒数)转换为时分秒格式的示例
- pool(三)——Timer
- 小程序获取用户微信步数
热门文章
- 删除EXCEL后面空白的列
- openSUSE 截图快捷键配置
- 教妹学Java:数组专用工具类 Java.util.Arrays
- vue 2.0需求拍摄证件照(需要设置人头取景框,鼠标也拖拽,键盘方向键可调整位置)
- linux搭建完redis集群后连接不上,大师网-CentOS7 64位配置Redis集群错误处理(1)
- Axis1,Axis2,Xfire,CXF区别
- html与css入门经典 当当,HTML与CSS入门经典
- 关于flask入门教程-ajax+echarts简单实现一
- MATLAB解线性方程组和一元多次方程
- Linux操作 -- 基本知识整理(整理中)