原文链接:http://blog.csdn.net/zhoubl668/article/details/7857756

by 张帆(自然语言处理组@搜狗)

通用搜索VS垂直搜索:

通用搜索特点:
                抓取互联网上一切有价值的页面,同意建立索引,以关键字匹配为基本检索方式,以网页title和summary为展现方式
                google, 百度,搜狗,搜搜,有道
        垂直搜索特点:
                以一特定类别为主题,只抓取与主题相关信息,根据主题特点有针对性的建立相应的索引检索方式,筛选方式,以及展现方式
                机票搜索,地图搜索,购物搜索(一淘)……
                
解决方法:通用搜索引擎 + 垂直搜索引擎
        意图识别
        
意图搜索的难点:

输入不规范
                输入方法多样化
                非常不规范
                有堆砌关键词
                自然语言查询
                甚至非标准自然语言
        多意图
                如:仙剑奇侠传
                        游戏?--> 游戏软件?……
                        电视剧?--> 电视剧下载?相关新闻?……
                        电影?--> 电影下载?查看影评?剧情介绍?……
                        音乐?--> 歌曲下载?在线听歌?歌词下载?……
                        小说?--> 小说下载?在线观看?……
        意图强度
                如:荷塘月色
                荷塘月色歌曲 --> 歌曲下载:50%
                荷塘月色小区 --> 房产需求:20%
                荷塘月色菜 --> 菜谱需求:10%
        结果可靠性
                供我们获取搜索结果的这些垂直站点往往是一些中小型的网站,我们需要保证搜索结果的准确性和相关性
                如:遥控汽车
                预期结果:返回所有遥控汽车的相关结果
                实际返回:
                        遥控汽车--> 没有遥控汽车相关结果
                        遥控--> 返回遥控器,遥控飞机等于原意图无关的结果
                        汽车--> 返回汽车模型,汽车配件等于原意图无关的结果
                        (比如京东就是这么拆搜索词的)
        时效性
                如:iPhone5 7月1日上市销售
                6月30日的查询意图:新闻90%,百科10%
                7月1日的查询意图:新闻70%,购买25%,百科5%
                8月1日的查询意图:购买50%,资讯40%,其他10%
                5年以后的查询意图:百科100%
        
词表穷举法:

最简单直接的方法,通过词表的直接匹配来获取查询意图,也可加入适用于较为简单且查询较为集中的类别,比如电视台节目查询,节假日查询,餐馆查询等
                如:北京的天气怎么样啊
                (停用词替换) --> [北京][天气][怎么样]
                (查询词归一) --> {城市][关键词][疑问词]
                (顺序无关) --> {[城市], [关键词], [疑问词]}
                给出白名单:

规则解析法:

适用于一些查询虽然不集中但非常符合规则的类别,通过规则解析查询来做意图识别和关键信息提取的,比如汇率查询,计算器,度量衡等
                如:236.2美金能换多少RMB?
                [236.2][美金][今天]能换多少[人民币]?
                [数字][货币单位][日期]能换多少[货币单位]?
                ★通过知识图表,来替换/对应/归一
                解析:
                        数量:236.2
                        源货币:美元(不再是“美金”)
                        目的货币:人民币
                ★配合自己建立的一些语言模型,可以比较好的解决召回率比较低的问题
                        模型训练的比较好的话,相对召回也很不错
                        但是比如购物啊什么的,是无法做这种信息模型的
        
统计模型分类法:(最常用)

查询词分类:基于查询词本身的分类,也就是建立基于字面意思的统计分类模型
        查询词扩展分类:基于查询词的扩展信息的分类,也就是基于真实社会知识的分离,通常是搜索结果扩展
                比如“家常菜”居然是个电视剧!
        查询词分类:
        查询词-->查询纠错、规则化、知识词表-->Uni-gram, Bi-gram, CRF, 语料分类模型-->搜索结果验证、垂直搜索结果验证-->查询扩展分类结果
        查询扩展分类:
        查询词-->搜索结果1,2,3,4-->标题分类、摘要分类、网站分类-->结果分类1,2,3,4-->查询扩展分类结果
                (针对每个搜索结果,验证一下查询意图强度和类别)
                
        需要配合持续更新的语料,就可以通过流程自动更新
        比较可行的方法如:
        先到软件下载站
        把排行榜的TOP 100拖下来(这些都有软件下载的查询需求)
        搜索一遍,然后每个取前50个搜过结果
        作为一个5000大小的语料,可以训练
        可以持续、自动更新

搜索意图识别未来:

无类别概念的意图识别
                基于垂直搜索的分类模型,而非基于类别的分类模型,帮助用户获取想要的内容而不限定类别
                比如将 类别和网站本身 建立联系,直接在网站内部的数据库中搜索
        个性化意图上下文分析
                根据用户特征建立个性化的信息,获取用户的短期兴趣和长期兴趣,准对性的优化意图识别
        精准意图理解
                更加精准的意图理解,所有价值信息的解析,目前的展现多为整体展现,可以再进一步来生成个性展现
        语言应用的意图理解
                针对语言类应用的特点优化,比如语言纠错,个性信息的辅助意图识别等

附加:

搜索提示:搜索 智能 ,搜索引擎提示 智能手机、智能手表

有多少可能性:关联分析、rank序列、文档建模

................................

转载于:https://www.cnblogs.com/wishchin/p/9200177.html

搜索引擎的查询意图识别(关联分析)相关推荐

  1. 搜索引擎排名和Page Rank 关联分析

    搜索引擎排名和Page Rank 关联分析 最近 google 黑板报 的一篇关于 谈 Page Rank – Google 的民主表决式网页排名技术 又掀起了大家对 PR 的关注,加上最近 goog ...

  2. HarmonyOS之AI能力·助手类意图识别

    一.简介 随着人机交互越来越普遍,设备需要理解用户下达的各种指令,方便用户的操作. 助手类意图识别能够利用机器学习技术,对用户发送给设备的文本消息进行语义分析和意图识别,进而衍生出各种智能的应用场景, ...

  3. HarmonyOS之AI能力·IM类意图识别

    一.基本概念 IM 类意图识别,是指利用机器学习技术,针对用户短信或聊天类 APP 等 IM 应用的文本消息进行内容分析,并识别出消息内容代表的用户意图. 基于语义分析,利用机器学习的相关技术识别并理 ...

  4. Query意图识别分析

    outline 近段时间在研究搜索的相关技术,在工作中主要涉及到资讯搜索功能的实现.我们采用了elasticsearch搜索引擎,es基础和es进阶1.由于需要对搜索功能进行迭代,所以笔者继续深入研究 ...

  5. 灰关联分析与语音/音乐信号识别

                                                                             灰关联分析与语音/音乐信号识别 来源:电子技术应用  ...

  6. WGCNA 简明指南|2. 模块与性状关联分析并识别重要基因

    WGCNA 简明指南|2. 模块与性状关联分析并识别重要基因 WGCNA 系列 WGCNA 简明指南|1. 基因共表达网络构建及模块识别 WGCNA 系列 参考 关联模块与临床特征 量化module- ...

  7. NLP专栏简介:数据增强、智能标注、意图识别算法|多分类算法、文本信息抽取、多模态信息抽取、可解释性分析、性能调优、模型压缩算法等

    NLP专栏简介:数据增强.智能标注.意图识别算法|多分类算法.文本信息抽取.多模态信息抽取.可解释性分析.性能调优.模型压缩算法等 专栏链接:NLP领域知识+项目+码源+方案设计 订阅本专栏你能获得什 ...

  8. Feishu(飞书) 聊天机器人应用(2/3)- 定制对话,实现知识库、信息查询、意图识别、多轮对话

    目录 Chatopera 飞书 Custom App 开源项目 快速开始 创建 Feishu Bot 应用 创建 Chatopera Bot 应用 编辑描述文件 安装依赖 启动服务 配置 Feishu ...

  9. 搜索引擎——用户搜索意图的理解及其难点解析,本质是利用机器学习用户的意图分类...

    用户搜索意图的理解及其难点解析 搜索引擎涉及的技术非常的繁复,既有工程架构方面的,又有算法策略方面的.综合来讲,一个搜索引擎的技术构建主要包含三大部分: 对 query 的理解 对内容(文档)的理解 ...

最新文章

  1. 《小程序个人信息保护研究报告》解读
  2. 扫描自己进入VR中 SLAM Scan 3D引擎将做到
  3. yum安装mysql和mysql源,配置mysql(亲测)
  4. 文献记录(part92)--Graph regularized low-rank representation for submodule clustering
  5. Angular 2.x 从0到1 (五)史上最简单的Angular2教程
  6. 话里话外:流程图绘制初级:六大常见错误
  7. 解决:org.apache.rocketmq.client.exception.MQClientException: No route info of this topic, TopicTest
  8. 二进制、十进制、其他进制之间的转换
  9. 应用迁移方案_Kubernetes如何成为迁移旧版应用程序的解决方案
  10. java保留两位小数 四种方式
  11. 为什么静态方法中不可以直接访问非静态方法?
  12. 手机 html5 hammer drag widget,javascript – HTML5使用Hammer.js拖放事件拖放div上的元素
  13. 赛默飞世尔Thermo Fisher仪器电路板维修故障概述
  14. FL Studio20.9自带中文入门版本
  15. RGB色彩模式下的色值与整数之间的互转方法
  16. AutoCAD2014下载和安装教程(官方中文完整版)
  17. hdu4489-The-King-s-Ups-and-Downs
  18. oracle enlisttransaction,WAS运行时抛出的两种异常,经过google找到解决方案,记录以备案...
  19. 会声会影应该如何制作电影开幕效果
  20. 渗透测试的理论部分1——渗透测试方法论

热门文章

  1. 飞鸽传书源码分析三-网络
  2. 今天 我们可以让你不再说,“没有灵感” 2
  3. ue4菜单栏的碰撞图文_工具栏发生碰撞时
  4. java之I/O流【一】
  5. jsonp 跨域接收值接不到的解决方法
  6. Ubuntu中录屏软件、文档编写、Ubuntu中Codelite下载方法以及古月老师的编写的Ubuntu助手地址
  7. 电脑爱好者GHOSTWIN7纯净版v2.0
  8. 使用git上传远程的时候出现用户名密码错误 emote: Incorrect username or password ( access token )
  9. 10个学习编程开发的技巧
  10. 卷积神经网络物体检测之感受野大小计算