腾讯云搜纠错(QC)系统----用户的每一次错误搜索都能获得惊喜
1.QC简介
1.1QueryCorrection(QC)
QC顾名思义,就是将用户输入的错误检索串,进行模型计算,推测用户意图,发现能真正满足用户搜索需求的正确输入形式,并将正确结果展现给用户,从而帮助用户更快的找到所需的信息,最终满足查询的需求。
1.2QC形式
QC包含两种形式,一类是单词拼写错误,早期的英文串纠错就是通过字典进行单词正确性的纠错;第二类是上下文搭配不当引起的错误。在中文中不存在第一类的错字情况,只有字与字搭配的词条是否合理,或者一连串词条搭配能否组成一个通顺的句子,所以中文纠错主要解决的是上下文搭配问题。
1.3QC作用
召回 |
|
精度 |
|
直达区 |
|
1.4QC类型
错误类型 |
纠错示例 |
数字 |
2408->2048 |
英文 |
Fiappy->flappy Whatasapp->whatsapp |
拼音 |
Talang->踏浪 wangfei ->王菲 |
简拼 |
Zgr->中国人/张国荣 Xiaopg->小苹果 |
缺字 |
手机助->手机助手 倍爽->倍儿爽 |
多字 |
你是我的眼毛->你是我的眼 送情郎当红军->送郎当红军 |
换字 |
笨鸟学飞->笨鸟快飞 |
汉字拼音 |
朗朗->郎朗 草冒歌->草帽歌 |
模糊音 |
四面埋伏->十面埋伏 |
拼音+英文 |
2014zuixindj->2014最新dj |
汉字+英文 |
江南st->江南style |
汉字+拼音 |
情非得已tongs->情非得已童声 |
换序 |
老师对话->对话老师 宗雨林->雨宗林 |
形近字 |
许蒿精选->许嵩精选 中固话->中国话 |
关联 |
时间都去哪了 王铮->时间都去哪儿了 王铮亮 阿杜擦一点 ->阿杜差一点 |
Part纠错 |
非主流 dj背尽音乐 dj ->非主流 dj背景音乐 dj |
2.腾讯云搜QC模块介绍
2.1通用QC
通用QC即网页QC,腾讯云搜默认提供通用QC功能。通用QC是在soso早期就形成的纠错服务,经历了若干同学的努力,纠错策略更加丰富,字典积累逐步完善,算法和流程也更加自动化,在评测对比中,和竞品持平或者略胜。
图表 1通用QC
2.1.2通用QC的优点
通用QC可以满足非特定领域知识的纠错,对比较常识性的错误进行纠正。如下举例:
错误类型 |
纠错示例 |
拼音 |
Talang->踏浪 wangfei ->王菲 |
汉字拼音 |
朗朗->郎朗 草冒歌->草帽歌 |
2.1.2通用QC的局限
在开发腾讯云搜纠错服务的调研过程中,发现网页QC并不能满足所有业务的需求,比如一些很有产品特色的名词,无法进行纠错:
错纠 |
shixiong -> 师兄 (尸兄) [视频] laobing -> 烙饼 (老兵) [视频] |
漏纠 |
罗绮 -> 罗琦 lqyjjl -> 恋曲一九九零 老子今天不上班 -> 老子明天不上班 pround foryou -> pround of you 变形记湖南卫视 ->变形计 湖南卫视 |
过纠 |
cup -> cpu [视频] 百分摔跤->百分摔角 [应用宝] |
2.1.2通用QC体验地址
在以下地址可以体验寄出分词和通用QC服务http://yunsou.qq.com/search_experience.cgi
2.2高级QC
高级QC即垂搜QC,腾讯云搜高级QC是在通用QC服务的基础上,进行了二次开发,不同的业务进行了定制化的服务,包括在线策略、离线挖掘、干预等模块等。具体流程如下:
图表 2高级QC
2.2.1高级QC系统流程
纠错系统大致分为几个部分,包括数据筛选和去噪,索引构建,在线检索,对结果进行终判得到最终结果。可以归纳为三部分:离线数据处理,数据召回和排序终判。
2.2.2高级QC分层设计
逻辑上分为四个层次:
接入层 |
负责业务接入的接口; |
决策层 |
对各个业务进行定制化的排序服务;各种计算插件; |
召回层 |
数据索引构建;在线检索召回; |
数据层 |
数据筛选和去噪;离线纠错对挖掘;运营指标统计和监控;在线反馈。 |
图表 3高级QC逻辑图
2.1.2高级QC体验地址
高级QC由于与业务直接关联,可以在QQ音乐搜索体验。
2.3两者的差异
高级QC |
通用QC |
|
意图 |
意图明确,用户需求大部分是具体的资源 |
意图发散,需要满足所有需求 |
模型 |
Log量少,百万级别(甚至没有); 可用于离线挖掘语料稀疏 |
Log量巨大,近3个月上亿的数据量 |
融合 |
多样:Top3,全纠, 提示,混插等 |
单一:Top3,全纠 |
客户端 |
无线占绝大比例 |
主要是Pc端 |
表格 1意图差异case
[应用宝] [原串] [音乐] |
|
[应用宝] [原串] [视频] |
|
[应用宝] [原串] [视频] |
|
2.4.高级QC的优点
1.业务之间不耦合,各业务索引集群是独立的
2.更关注算法,不在业务上耗费精力
3.召回路由,策略算法可配置
4.小的业务可以不提供数据,也可以共享相关策略。
腾讯云搜纠错(QC)系统----用户的每一次错误搜索都能获得惊喜相关推荐
- 腾讯云低延时直播系统架构设计与弱网优化实践
"直播带货"可能是2020年最具代表性的词汇之一,那么传统电商该如何融合直播系统,直播过程如何保障用户的最佳观看体验?本文由腾讯云资深架构师何书照在LiveVideoStack线上 ...
- 使用腾讯云服务器的windows系统搭建CSGO服务器
使用腾讯云服务器的windows系统搭建CSGO服务器 准备工作 在正式安装搭建之前需要先到steam官方游戏服务器账户申请公网秘钥Login Token(需要登录自己的steam账号) 网址:htt ...
- 腾讯云linux没有root,解决腾讯云服务器默认为ubuntu用户问题
我们都知道Linux的默认用户是root,root用户拥有最高权限,而且新建的服务器里每个文件的所有者和所属组都是root.包括腾讯云默认创建的ubuntu用户情况下也是一样的. 如此一说我们可能已经 ...
- cnetos6.2搭建mysql_基于腾讯云的Centos6.2系统搭建Apache+Mysql+PHP开发环境
搭建环境,我肯定需要先购买腾讯云服务器的哦! 然后,我们打开SecureCRT 7.3,这是一款可以连接Linux系统的客户端工具,使用的很方便快捷,要注意的是,若你是Linux系统的就要用22端口, ...
- 腾讯云服务器如何重装系统
腾讯云服务器如何重装系统 首先登录腾讯云账号,到控制台找到购买的服务器.(记得选对应的地区) 找到购买的服务器之后点更多,选择重装系统. 选择对应的镜像系统,输入服务器密码,然后选择开始重装,等个几十 ...
- 腾讯云服务器Linux镜像系统登录方法(SSH、标准登录方式和VNC登录)
腾讯云Linux服务器如何登录?可以使用SSH客户端登录,也可以使用腾讯云官方提供的标准登录方式和VNC登录,腾讯云服务器网来详细说下腾讯云服务器Linux操作系统登录连接方法: 腾讯云Linux服务 ...
- 腾讯云CentOS如何使用root用户远程登录实例
文章目录 前言 一.Ubuntu和Xshell 二.使用步骤 1. 使用腾讯云控制台一键登录(lighthouse),也可以使用Ubuntu登录 2. 执行以下命令,设置 root 密码. 3. 输入 ...
- 腾讯云轻量级服务器Ubuntu系统搭建可视化界面
前言: 以云服务器的方式搭建Linux workstation对比在电脑本地安装虚拟机的优势在于,不需要占用本地电脑资源空间,网络环境等相对稳定,可以用手机等轻量移动设备连接管理等.本文主要介绍使用腾 ...
- 如何选购腾讯云服务器?新老用户选购攻略!
随着云计算的快速发展,很多用户都选择上云,上运中最常见的产品就是云服务器CVM和轻量应用服务器了,那么怎么选购最优惠呢,这篇文章将介绍新老用户选购腾讯云服务器的几个优惠方法. 一.买赠专区 第一个介绍 ...
最新文章
- (已解决)AttributeError: ‘PrecisionRecallDisplay‘ has no attribute ‘from_predictions‘以及查看sklearn版本
- 新的UWP和Win32应用程序分发模型
- 自己动手写C语言编译器(1)
- [Spark][Python]PageRank 程序
- 朋友,别告诉我你懂分布式事务!
- 阅读源码的 4 个绝技,我必须分享给你!
- 单循环 输入一行星花
- 基础表比商户对账和汇总多了一笔退款数据
- kylin启动netstat: n: unknown or uninstrumented protocol
- 12.4!移动云 TeaTalk 即将抵达深圳,不要错过!
- 软银将波士顿动力出售给现代;美国流行文化品牌“大嘴猴”被收购;盖茨基金会再投2.5亿美元抗疫 | 美通企业周刊...
- JAVA基础——对象与引用概念(转载)
- TFT显示屏参数设置
- word粘贴超出页面怎么办
- 在Oracle中使用脏读,ORACLE 事务处理
- vue与原生安卓相互调用
- Freetype的使用
- 【XSY2271】青蛙(栈)
- 什么是IoT、IT、OT、CT
- 服务器相关 HTTP 请求错误