1.QC简介

1.1QueryCorrection(QC)

QC顾名思义,就是将用户输入的错误检索串,进行模型计算,推测用户意图,发现能真正满足用户搜索需求的正确输入形式,并将正确结果展现给用户,从而帮助用户更快的找到所需的信息,最终满足查询的需求。

1.2QC形式

QC包含两种形式,一类是单词拼写错误,早期的英文串纠错就是通过字典进行单词正确性的纠错;第二类是上下文搭配不当引起的错误。在中文中不存在第一类的错字情况,只有字与字搭配的词条是否合理,或者一连串词条搭配能否组成一个通顺的句子,所以中文纠错主要解决的是上下文搭配问题。

1.3QC作用

召回

精度

直达区

1.4QC类型

错误类型

纠错示例

数字

2408->2048

英文

Fiappy->flappy

Whatasapp->whatsapp

拼音

Talang->踏浪

wangfei ->王菲

简拼

Zgr->中国人/张国荣

Xiaopg->小苹果

缺字

手机助->手机助手

倍爽->倍儿爽

多字

你是我的眼毛->你是我的眼

送情郎当红军->送郎当红军

换字

笨鸟学飞->笨鸟快飞

汉字拼音

朗朗->郎朗

草冒歌->草帽歌

模糊音

四面埋伏->十面埋伏

拼音+英文

2014zuixindj->2014最新dj

汉字+英文

江南st->江南style

汉字+拼音

情非得已tongs->情非得已童声

换序

老师对话->对话老师

宗雨林->雨宗林

形近字

许蒿精选->许嵩精选

中固话->中国话

关联

时间都去哪了 王铮->时间都去哪儿了 王铮亮

阿杜擦一点 ->阿杜差一点

Part纠错

非主流 dj背尽音乐 dj ->非主流 dj背景音乐 dj

2.腾讯云搜QC模块介绍

2.1通用QC

通用QC即网页QC,腾讯云搜默认提供通用QC功能。通用QC是在soso早期就形成的纠错服务,经历了若干同学的努力,纠错策略更加丰富,字典积累逐步完善,算法和流程也更加自动化,在评测对比中,和竞品持平或者略胜。

图表 1通用QC

2.1.2通用QC的优点

通用QC可以满足非特定领域知识的纠错,对比较常识性的错误进行纠正。如下举例:

错误类型

纠错示例

拼音

Talang->踏浪

wangfei ->王菲

汉字拼音

朗朗->郎朗

草冒歌->草帽歌

2.1.2通用QC的局限

在开发腾讯云搜纠错服务的调研过程中,发现网页QC并不能满足所有业务的需求,比如一些很有产品特色的名词,无法进行纠错:

错纠

shixiong -> 师兄 (尸兄) [视频]

laobing -> 烙饼 (老兵) [视频]

漏纠

罗绮 -> 罗琦

lqyjjl -> 恋曲一九九零

老子今天不上班 -> 老子明天不上班

pround foryou -> pround of you

变形记湖南卫视 ->变形计 湖南卫视

过纠

cup -> cpu [视频]

百分摔跤->百分摔角 [应用宝]

2.1.2通用QC体验地址

在以下地址可以体验寄出分词和通用QC服务http://yunsou.qq.com/search_experience.cgi

2.2高级QC

高级QC即垂搜QC,腾讯云搜高级QC是在通用QC服务的基础上,进行了二次开发,不同的业务进行了定制化的服务,包括在线策略、离线挖掘、干预等模块等。具体流程如下:

图表 2高级QC

2.2.1高级QC系统流程

纠错系统大致分为几个部分,包括数据筛选和去噪,索引构建,在线检索,对结果进行终判得到最终结果。可以归纳为三部分:离线数据处理,数据召回和排序终判。

2.2.2高级QC分层设计

逻辑上分为四个层次:

接入层

负责业务接入的接口;

决策层

对各个业务进行定制化的排序服务;各种计算插件;

召回层

数据索引构建;在线检索召回;

数据层

数据筛选和去噪;离线纠错对挖掘;运营指标统计和监控;在线反馈。

图表 3高级QC逻辑图

2.1.2高级QC体验地址

高级QC由于与业务直接关联,可以在QQ音乐搜索体验。

2.3两者的差异

高级QC

通用QC

意图

意图明确,用户需求大部分是具体的资源

意图发散,需要满足所有需求

模型

Log量少,百万级别(甚至没有);

可用于离线挖掘语料稀疏

Log量巨大,近3个月上亿的数据量

融合

多样:Top3,全纠, 提示,混插等

单一:Top3,全纠

客户端

无线占绝大比例

主要是Pc端

表格 1意图差异case

[应用宝] [原串] [音乐]

[应用宝] [原串] [视频]

[应用宝] [原串] [视频]

2.4.高级QC的优点

1.业务之间不耦合,各业务索引集群是独立的

2.更关注算法,不在业务上耗费精力

3.召回路由,策略算法可配置

4.小的业务可以不提供数据,也可以共享相关策略。

腾讯云搜纠错(QC)系统----用户的每一次错误搜索都能获得惊喜相关推荐

  1. 腾讯云低延时直播系统架构设计与弱网优化实践

    "直播带货"可能是2020年最具代表性的词汇之一,那么传统电商该如何融合直播系统,直播过程如何保障用户的最佳观看体验?本文由腾讯云资深架构师何书照在LiveVideoStack线上 ...

  2. 使用腾讯云服务器的windows系统搭建CSGO服务器

    使用腾讯云服务器的windows系统搭建CSGO服务器 准备工作 在正式安装搭建之前需要先到steam官方游戏服务器账户申请公网秘钥Login Token(需要登录自己的steam账号) 网址:htt ...

  3. 腾讯云linux没有root,解决腾讯云服务器默认为ubuntu用户问题

    我们都知道Linux的默认用户是root,root用户拥有最高权限,而且新建的服务器里每个文件的所有者和所属组都是root.包括腾讯云默认创建的ubuntu用户情况下也是一样的. 如此一说我们可能已经 ...

  4. cnetos6.2搭建mysql_基于腾讯云的Centos6.2系统搭建Apache+Mysql+PHP开发环境

    搭建环境,我肯定需要先购买腾讯云服务器的哦! 然后,我们打开SecureCRT 7.3,这是一款可以连接Linux系统的客户端工具,使用的很方便快捷,要注意的是,若你是Linux系统的就要用22端口, ...

  5. 腾讯云服务器如何重装系统

    腾讯云服务器如何重装系统 首先登录腾讯云账号,到控制台找到购买的服务器.(记得选对应的地区) 找到购买的服务器之后点更多,选择重装系统. 选择对应的镜像系统,输入服务器密码,然后选择开始重装,等个几十 ...

  6. 腾讯云服务器Linux镜像系统登录方法(SSH、标准登录方式和VNC登录)

    腾讯云Linux服务器如何登录?可以使用SSH客户端登录,也可以使用腾讯云官方提供的标准登录方式和VNC登录,腾讯云服务器网来详细说下腾讯云服务器Linux操作系统登录连接方法: 腾讯云Linux服务 ...

  7. 腾讯云CentOS如何使用root用户远程登录实例

    文章目录 前言 一.Ubuntu和Xshell 二.使用步骤 1. 使用腾讯云控制台一键登录(lighthouse),也可以使用Ubuntu登录 2. 执行以下命令,设置 root 密码. 3. 输入 ...

  8. 腾讯云轻量级服务器Ubuntu系统搭建可视化界面

    前言: 以云服务器的方式搭建Linux workstation对比在电脑本地安装虚拟机的优势在于,不需要占用本地电脑资源空间,网络环境等相对稳定,可以用手机等轻量移动设备连接管理等.本文主要介绍使用腾 ...

  9. 如何选购腾讯云服务器?新老用户选购攻略!

    随着云计算的快速发展,很多用户都选择上云,上运中最常见的产品就是云服务器CVM和轻量应用服务器了,那么怎么选购最优惠呢,这篇文章将介绍新老用户选购腾讯云服务器的几个优惠方法. 一.买赠专区 第一个介绍 ...

最新文章

  1. (已解决)AttributeError: ‘PrecisionRecallDisplay‘ has no attribute ‘from_predictions‘以及查看sklearn版本
  2. 新的UWP和Win32应用程序分发模型
  3. 自己动手写C语言编译器(1)
  4. [Spark][Python]PageRank 程序
  5. 朋友,别告诉我你懂分布式事务!
  6. 阅读源码的 4 个绝技,我必须分享给你!
  7. 单循环 输入一行星花
  8. 基础表比商户对账和汇总多了一笔退款数据
  9. kylin启动netstat: n: unknown or uninstrumented protocol
  10. 12.4!移动云 TeaTalk 即将抵达深圳,不要错过!
  11. 软银将波士顿动力出售给现代;美国流行文化品牌“大嘴猴”被收购;盖茨基金会再投2.5亿美元抗疫 | 美通企业周刊...
  12. JAVA基础——对象与引用概念(转载)
  13. TFT显示屏参数设置
  14. word粘贴超出页面怎么办
  15. 在Oracle中使用脏读,ORACLE 事务处理
  16. vue与原生安卓相互调用
  17. Freetype的使用
  18. 【XSY2271】青蛙(栈)
  19. 什么是IoT、IT、OT、CT
  20. 服务器相关 HTTP 请求错误

热门文章

  1. 林德康:从搜索引擎到问答引擎再到动作引擎
  2. 今天才知道,vivo手机还有4种截图方式,其中2种很有趣
  3. css阵列,在阵列上重置CSS动画
  4. 潇洒老师总结的汽车发动机结构种类汇总
  5. dnf一换线就服务器不稳定,DNF:史派克做事了!换线黑屏已解决,玩家点取消可返回其它频道...
  6. 安卓高德地图开发之引入导航功能
  7. 通过人工智能算法再次进行文本到图像的转换
  8. 【Java基础】数组转字符串
  9. 【案例介绍】天津市河西区政府智慧城市大屏可视化决策系统
  10. HDOJ题目1290献给杭电五十周年校庆的礼物(数学,递推)