目录

1 搜索核心技术发展

1.1 基于字面匹配的检索流程

传统基于字面匹配的检索的痛点:

2 PaddleNLP语义检索系统

2.1 语义检索系统架构:recall+ranking

2.2 PaddleNLP语义检索系统的特色

2.3 PaddleNLP语义检索系统的召回阶段的核心技术

2.3.1 无监督对比学习SimCSE

2.3.2 有监督in-batch负采样

2.3.3 领域预训练优化

2.4 PaddleNLP语义检索系统的排序阶段的核心技术

2.4.1 排序技术

3 语义检索应用案例

4 实践:快速搭建语义检索系统


  • 语义检索系统:不同于基于字面匹配检索,在语义层面的检索泛化效果更好。
  • 语义检索系统方案的一些问题:用什么架构?各模块用什么模型?模型如何调优?有多少训练数据?训练数据的形式?语义检索效果如何自动化评估?等
  • PaddleNLP语义检索系统给出的回答:架构:recall+ranking,模型:ERNIE-Gram,千万级无监督语料

1 搜索核心技术发展

  • 基于规则的时代:需要人工写先验规则,效果一般
  • 统计方法时代:基于字面匹配的方法
  • 神经网络方法
  • 预训练时代:预训练模型->端到端系统

1.1 基于字面匹配的检索流程

传统基于字面匹配的检索的痛点:

  1. 语义鸿沟:无法解决语义问题。
  2. 没有标注数据
  3. 不清楚语义检索系统方案

2 PaddleNLP语义检索系统

回答以上痛点问题

2.1 语义检索系统架构:recall+ranking

 

2.2 PaddleNLP语义检索系统的特色

  1. 简单易用:案例详细、一站式支持训练预测ann引擎和部署
  2. 没有标注数据也能做语义检索:(痛点2)
  3. 高性能

2.3 PaddleNLP语义检索系统的召回阶段的核心技术

2.3.1 无监督对比学习SimCSE

监督信号=语义相似的关系

如何构造监督信号:一句话多次进行随机编码,语义是相似的。此时的训练目标就是,让构造出来的向量与原来的接近,与其他的远离 

2.3.2 有监督in-batch负采样

负例对的来源:与不相关的样例的搭配

2.3.3 领域预训练优化

2.4 PaddleNLP语义检索系统的排序阶段的核心技术

2.4.1 排序技术

ERNIE-gram做热启动,把正样本和query拼起来求相似度,负样本和query拼起来求相似度,最后的loss优化就是让正样本的相似度尽可能大,负样本的尽可能小

3 语义检索应用案例

根据用户看过的视频来推荐相关视频,全部短视频title生成语义向量,接下来就可以做召回了

是有语义泛化的效果

4 实践:快速搭建语义检索系统

AI快车道PaddleNLP系列直播课6|语义检索系统快速搭建落地相关推荐

  1. AI快车道PaddleNLP系列直播课5|RocketQA:预训练时代的端到端问答

    目录 1 问答系统及应用 1.1 定义 1.2 应用 1.3 问答系统的分类 2 问答技术发展回顾 预训练时代的端到端问答: 3 端到端问答技术介绍 3.1 检索式问答 3.2 检索模型 3.2.1 ...

  2. AI快车道PaddleNLP系列直播课1|PaddleNLP助力万方优化搜索匹配

    目录 一.搜索场景中的技术难点 二.技术选型与方案实施 2.1 相关性的两个维度 2.2 文本相关性 2.3 词向量模型 2.4 bert不能用 2.5 选择了表示模型和交互模型 2.6 senten ...

  3. AI快车道PaddleNLP系列直播课2|开箱即用的产业级NLP开发库

    目录 一.PaddleNLP 二.PaddleNLP Taskflow 2.1 目标和意义 2.2 taskflow架构 2.3 taskflow三大特点 三.taskflow应用介绍 3.1 词法分 ...

  4. 企业经营私域运营的三大核心系列直播课

    摩天,用友旗下社会化的企业数智化学习认证社区,提供数智营销.智慧医疗.数智金融.智能制造.项目管理等精品课程,数智化人才上摩天!https://mot.yonyou.com/ #企业经营私域运营的三大 ...

  5. paddlenlp Windows本地搭建语义检索系统

    paddlenlp Windows本地搭建语义检索系统 一. 运行环境 软件环境: python >= 3.8.16 paddlenlp = 2.5.2 paddlepaddle-gpu =2. ...

  6. 搜索推荐系统[10]项目实战系列Z1:手把手教学(商品搜索系统、学术文献检索)语义检索系统搭建、召回排序模型详解。

    搜索推荐系统专栏简介:搜索推荐全流程讲解(召回粗排精排重排混排).系统架构.常见问题.算法项目实战总结.技术细节以及项目实战(含码源) 专栏详细介绍:搜索推荐系统专栏简介:搜索推荐全流程讲解(召回粗排 ...

  7. 【MQTT从入门到提高系列 | 01】从0到1快速搭建MQTT测试环境

    这是机器未来的第24篇文章 原文首发地址:https://blog.csdn.net/RobotFutures/article/details/125532208 1. mosquitto概述 Ecl ...

  8. 【解决方案】如何基于EasyDSS直播点播系统快速搭建VR直播平台?

    一.项目背景 随着互联网的发展,传统的视频直播已经无法满足客户的个性化需求.而基于AI和VR的直播系统是未来直播发展的趋势.AR也就是增强现实(Augmented Reality)技术,可以运用三维建 ...

  9. 语义检索系统【二】:基于无监督训练SimCSE+In-batch Negatives策略有监督训练的语义索引召回

    搜索推荐系统专栏简介:搜索推荐全流程讲解(召回粗排精排重排混排).系统架构.常见问题.算法项目实战总结.技术细节以及项目实战(含码源) 专栏详细介绍:搜索推荐系统专栏简介:搜索推荐全流程讲解(召回粗排 ...

最新文章

  1. 计算机专业美国最好的学校排名,美国计算机专业大学排名
  2. Python 全栈开发 -- 开发环境篇
  3. myeclipse 如何显示序号
  4. Momenta造“飞轮式”自动驾驶,4年内实现Robotaxi单车盈利,路线图首次公布
  5. JBoss下布署Spring2.5和Struts2系统
  6. 世界大学排名:12所中国大学科研实力进百强
  7. oracle 保留一个记录吗,笔记:Oracle查询重复数据并删除,只保留一条记录
  8. hdu 1075 map
  9. HDU - 4027 Can you answer these queries?(线段树)
  10. Django的Field(字段)
  11. SAPSQL_IN_ITAB_ILLEGAL_OPTION dump
  12. python模拟浏览器下载文件_模拟浏览器下载文件?
  13. Tool -- 01 -- xml与map相互转换
  14. Win7 Server 漏洞修复(CVE-2017-**、CVE-2018-**、CVE-2019-**、CVE-2012-**)
  15. html 语言包,语言包编辑
  16. 基于Java的办公用品管理系统的设计与实现
  17. 【linux内核分析与应用-陈莉君】时钟中断机制
  18. java 格式化时分秒_java整数(秒数)转换为时分秒格式的示例
  19. pool(三)——Timer
  20. 小程序获取用户微信步数

热门文章

  1. 删除EXCEL后面空白的列
  2. openSUSE 截图快捷键配置
  3. 教妹学Java:数组专用工具类 Java.util.Arrays
  4. vue 2.0需求拍摄证件照(需要设置人头取景框,鼠标也拖拽,键盘方向键可调整位置)
  5. linux搭建完redis集群后连接不上,大师网-CentOS7 64位配置Redis集群错误处理(1)
  6. Axis1,Axis2,Xfire,CXF区别
  7. html与css入门经典 当当,HTML与CSS入门经典
  8. 关于flask入门教程-ajax+echarts简单实现一
  9. MATLAB解线性方程组和一元多次方程
  10. Linux操作 -- 基本知识整理(整理中)