1 问答系统及应用

1.1 定义

1.2 应用

1.3 问答系统的分类

2 问答技术发展回顾

预训练时代的端到端问答：

3 端到端问答技术介绍

3.1 检索式问答

3.2 检索模型

3.2.1 两种不同的检索方式：稀疏向量检索、稠密向量检索

3.2.2 基于预训练模型的检索模型结构：双塔、单塔

3.2.3 基于近似近邻ANN检索的实时检索问答

3.2.4 稠密向量检索效果显著超越稀疏检索

3.2.5 模型训练方法的前沿工作

4 RocketQA工具使用介绍

4.1 预训练时代的研发难题

4.2 RocketQA端到端问答开源工具的优势

问答系统是信息检索系统的一种高级形式，旨在用准确简洁的自然语言回答用户自然语言提出的问题。
应用场景：搜索引擎、智能设备和智能客服。
分类：文本问答，知识库问答，表格问答和视频问答。
        技术发展：规则方法、统计机器学习时代、深度学习方法。
        预训练时代来了，端到端的系统可以做到全局优化，这种端到端问答系统一般是都是检索式问答，分为两阶段：先从语料库中检索候选段落，再阅读理解从候选段落中抽取候选答案。
        本课围绕检索阶段：

检索方式可分为稀疏向量检索和稠密向量检索，稠密向量检索客服了稀疏向量检索只能捕捉字面匹配的问题，可以做到建模语义匹配，检索效果显著超越稀疏检索。
检索模型结构使用双塔模型，虽然不如单塔模型交互充分，但是速度非常快，快速得到语义相似度用于快速索引。双塔模型得到了向量表示，就可以在向量空间中快速找到语义相似的候选段落

RocketQA效果很好，开源的中文端到端问答模型，也有英文并且提供接口可以直接用，目前还不能在自己的数据集上微调，可以关注一下github repo后续会更新

1 问答系统及应用

1.1 定义

问答系统（question answering system，QA）是信息检索系统的一种高级形式，它能用准确、简洁的自然语言回答用户自然语言提出的问题

1.2 应用

搜索引擎
智能设备
智能客服

具体的业务问题：说明书问答（找到答案高亮显示出来）疫情政务问答（RocketQA关注的是内容的语义相关性而非关键词匹配）

1.3 问答系统的分类

2 问答技术发展回顾

1、Protosynthex（Simmons et al. 1963）通过依存关系匹配问题和答案，面向限定领域、采用规则方法的专家系统，解析问题为主谓宾，候选答案也解析为同样的主谓宾，进行强规则匹配

2、TREC QA（1999-2007）问答系统的著名会议，十年还是难以进入实用化水平阶段

NLP进入了统计机器学习时代：人工标记语料，训练统计学习模型。

3、IBM Watson，还是沿用了统计机器学习的方法

4、DrQA，此时深度学习方法已经成为NLP的主流方法，特点是能基于大规模语料进行学习

如下图，两段式形式，先段落检索再进行阅读理解

ACL是国际NLP的会议，下图是此会议接收QA论文的趋势。

2011-2012年统计机器学习时代，一篇都没有。随着大规模语料和深度学习方法的出现逐渐投入更多的研究

2019年出现了预训练模型的技术，达到了新高度

预训练时代的端到端问答：

预训练模型出现之前要搭建一个问答系统，它是由不同的模块组成的，可能有很多模块是不可导不可学习的，这也为系统优化带来了困难（模块独立优化难以达到全局优化的效果）

预训练时代，因为能得到很好的语义表示（向量），端到端系统可以做到全局优化

3 端到端问答技术介绍

3.1 检索式问答

一般问答都是检索式问答，先从语料库中检索候选段落，在从段落中抽取候选答案

本课强调段落检索阶段，之前是tfidf这种稀疏检索的方式，现在两阶段都是可导可学习的模块，整个系统端到端，可以进行全局优化

3.2 检索模型

3.2.1 两种不同的检索方式：稀疏向量检索、稠密向量检索

3.2.2 基于预训练模型的检索模型结构：双塔、单塔

双塔：把问题和段落表示成向量，通过计算向量之间内积或者cos相似度可以快速得到两者的语义相似度。可以用于快速索引，但是问题和段落之间难以交互
单塔：交互充分，但是效率非常低

3.2.3 基于近似近邻ANN检索的实时检索问答

通过双塔结构得到了向量表示，就可以在向量空间中快速找到语义相似的候选段落

送入阅读理解阶段就可以快速抽取出候选答案

3.2.4 稠密向量检索效果显著超越稀疏检索

3.2.5 模型训练方法的前沿工作

4 RocketQA工具使用介绍

4.1 预训练时代的研发难题

4.2 RocketQA端到端问答开源工具的优势

AI快车道PaddleNLP系列直播课5|RocketQA：预训练时代的端到端问答相关推荐

AI快车道PaddleNLP系列直播课6|语义检索系统快速搭建落地
目录 1 搜索核心技术发展 1.1 基于字面匹配的检索流程传统基于字面匹配的检索的痛点: 2 PaddleNLP语义检索系统 2.1 语义检索系统架构:recall+ranking 2.2 Padd ...
AI快车道PaddleNLP系列直播课1|PaddleNLP助力万方优化搜索匹配
目录一.搜索场景中的技术难点二.技术选型与方案实施 2.1 相关性的两个维度 2.2 文本相关性 2.3 词向量模型 2.4 bert不能用 2.5 选择了表示模型和交互模型 2.6 senten ...
AI快车道PaddleNLP系列直播课2|开箱即用的产业级NLP开发库
目录一.PaddleNLP 二.PaddleNLP Taskflow 2.1 目标和意义 2.2 taskflow架构 2.3 taskflow三大特点三.taskflow应用介绍 3.1 词法分 ...
企业经营私域运营的三大核心系列直播课
摩天,用友旗下社会化的企业数智化学习认证社区,提供数智营销.智慧医疗.数智金融.智能制造.项目管理等精品课程,数智化人才上摩天!https://mot.yonyou.com/ #企业经营私域运营的三大 ...
今晚直播 | 微软亚洲研究院徐毅恒：预训练时代下的文档智能
「AI Drive」是由 PaperWeekly 和 biendata 共同发起的学术直播间,旨在帮助更多的青年学者宣传其最新科研成果.我们一直认为,单向地输出知识并不是一个最好的方式,而有效地反馈和 ...
线上直播丨KDD 2021预训练Workshop，谷歌MSRA等5位顶尖研究者参与研讨
近年来,机器学习领域最激动人心的进展,莫过于预训练方法的兴起,尤其是超大规模预训练模型的出现.各种领域,预训练方法都取得了一定的成功,如自然语言处理.计算机视觉.语音识别和图学习. 预训练的宗旨是利用 ...
“上新了！开发”系列直播课 #第六期# DAYU200技术公开课
来啦!来啦!!! 华为开发者联盟学堂联合润和软件召集OpenAtom OpenHarmony(以下简称"OpenHarmony")社区大咖--张荣超老师.连志安老师.徐建国老师.梁 ...
IMG直播课 | 如何借助硬件光线追踪技术，实现移动端影视级画质
在计算机图形领域中,光线追踪被看作是下一代极具颠覆性的图像技术.打造同真实世界一样"逼真"的视觉效果是光线追踪技术不断吸引开发者的关键,特别是游戏中更加真实的光照.3D人物,能带给 ...
PaddleNLP系列课程一：Taskflow、小样本学习、FasterTransformer
文章目录一.Taskflow 1.1 前言 1.2 Taskflow应用介绍 1.2.1 词法分析 1.2.2 命名实体识别 1.2.3 文本纠错 1.2.4 句法分析 1.2.5 情感分析 1.2 ...

AI快车道PaddleNLP系列直播课5|RocketQA：预训练时代的端到端问答

1 问答系统及应用

1.1 定义

1.2 应用

1.3 问答系统的分类

2 问答技术发展回顾

预训练时代的端到端问答：

3 端到端问答技术介绍

3.1 检索式问答

3.2 检索模型

3.2.1 两种不同的检索方式：稀疏向量检索、稠密向量检索

3.2.2 基于预训练模型的检索模型结构：双塔、单塔

3.2.3 基于近似近邻ANN检索的实时检索问答

3.2.4 稠密向量检索效果显著超越稀疏检索

3.2.5 模型训练方法的前沿工作

4 RocketQA工具使用介绍

4.1 预训练时代的研发难题

4.2 RocketQA端到端问答开源工具的优势

AI快车道PaddleNLP系列直播课5|RocketQA：预训练时代的端到端问答相关推荐

最新文章

热门文章