搜索引擎(四)--相关反馈与个性化推荐
文章目录
- 一、相关反馈的简介
- 二、反馈种类
- 三、查询优化
- 3.1 优化流程
- 3.2 具体方法
- 已知相关文档集情况
- 未知相关文档集情况
- 3.3 相关分析/兴趣分析
- 四、文档权重优化
- 4.1 机制
- 4.2 实际问题
一、相关反馈的简介
相关反馈(Relevance Feedback)是某些信息检索系统的一个特征,用于评价被回溯(或者说检索)到的文章是否与需要的信息相关。有时用户只使用了一两个关键词用于检索,但我们很难弄清回溯结果是否符合用户需求。
二、反馈种类
- 显式反馈 Explicit Feedback来自用户对回溯文档是否相关的直接反馈,反馈通常为评分或者二进制的Good/Bad。但是用户一般不会愿意花费精力去提供反馈。
- 隐式反馈 Implicit Feedback通过用户的行为来判断用户的喜好,如用户的点击、浏览时间、文档注释等。通常搜索引擎还会列出相关搜索词,譬如我们耳熟能详的:“你要找的是不是xxx”来作为反馈信息。
- 盲反馈Blind Feedback也称伪反馈,是由计算机自动处理检索结果,不需要用户的参与也可以得到比较满意的检索效果。这种方法假定用户初始检索结果的前k篇文档是相关的,再由系统抽选出这k篇文档的特征词,然后把这些特征词和初始查询词再放入搜索框中进行二次检索,这种行为我们称之为查询扩展Query Expansion。通过扩展查询词可以提高检索系统的性能,
三、查询优化
3.1 优化流程
在盲反馈中我们提到了查询扩展Query Expansion,指的是在原始查询中加入新的关键词而不去掉原有查询关键词。一个相似的概念是查询优化Query Reformulation\Modification,目标是让查询结果相关度从低变高,这个概念经常跟Query Expansion混用,但是实际上我们不关心这两个概念的异同,因为最终的目标是尽可能获得好的查询结果。
查询优化的流程可以用下图表示:
- 原始查询Q回溯文档集F
- 用相关分析函数判断文档集的相关程度
- 根据相关程度分析结果对查询进行优化,
- 将优化后的查询作为新一轮回溯的输入
- 反复上述4步直到结果收敛。优化查询后的回溯文档集应该比原始文档集包含更多相关文档,如下图所示
3.2 具体方法
老子有曰:“天之道,损有余而补不足;人之道,损不足而益有余”。我们优化查询的目的有二,一是损不足:弱化导致回溯不相关结果的关键词,譬如,如果我们想查的是苹果电脑,那戴尔、惠普的电脑应该被屏蔽,我们需要把戴尔和电脑两个关键词的权重减轻;二是益有余:加强导致回溯相关结果的关键词,譬如原始查询为apple,如果用户认为apple 和iPod是相关结果的,那么我们就应当加强apple和iPod这两个关键词的权重。下面我们将讨论如何得到最优的查询。
已知相关文档集情况
假设相关文档集是 D R D_R DR,不相关文档集是 D N D_N DN, t i , j t_{i,j} ti,j表示关键词 i i i在文档 j j j的权重,我们通过求加权的关键词得到文档集中心, D R D_R DR的中心 D R ′ = ∑ j ∈ D R t i , j ∣ D R ∣ D'_R=\dfrac{\sum_{j\in D_R}t_{i,j}}{|D_R|} DR′=∣DR∣∑j∈DRti,j, D N D_N DN的中心点是 D N ′ = ∑ j ∈ D N t i , j ∣ D N ∣ D'_N=\dfrac{\sum_{j\in D_N}t_{i,j}}{|D_N|} DN′=∣DN∣∑j∈DNti,j。假设 C C C是一个经验加权常数矩阵,我们可以把最优查询 Q o p t Q_{opt} Qopt表示为 Q o p t = C ( D R ′ − D N ′ ) Q_{opt}=C(D'_R-D'_N) Qopt=C(DR′−DN′)
未知相关文档集情况
一般情况下,推荐系统很难完全掌握所有的相关文档,我们通常是渐进地修改查询结果。假设 D R ′ D_{R'} DR′和 D N ′ D_{N'} DN′是用户判断的相关文档集和不相关文档集, Q Q Q是输入的查询, Q ′ Q' Q′是优化的查询, α \alpha α、 β \beta β、 γ \gamma γ是常数,我们可以把优化过程表示为以下方程 Q ′ = α Q + β ( ∑ i ∈ D R ′ D i ∣ D R ′ ∣ ) + γ ( ∑ i ∈ D N ′ D i ∣ D N ′ ∣ ) Q'=\alpha Q+\beta(\dfrac{\sum_{i\in D_{R'}}D_i}{|D_{R'}|})+\gamma(\dfrac{\sum_{i\in D_{N'}}D_i}{|D_{N'}|}) Q′=αQ+β(∣DR′∣∑i∈DR′Di)+γ(∣DN′∣∑i∈DN′Di)
3.3 相关分析/兴趣分析
这里顺带介绍下我们教授Dik Lun Lee的工作
搜索引擎(四)--相关反馈与个性化推荐相关推荐
- PAI和Hologres的个性化推荐最佳实践
简介:常见的个性化推荐系统包括日志收集,数据加工,召回,排序,离在线效果评估等诸多环节,对于中小客户存在技术门槛高,搭建周期长等问题.计算平台基于 PAI,Hologres,MaxCompute,Da ...
- 神策数据 VP 张涛:个性化推荐从入门到精通(附推荐产品经理修炼秘籍)
本文内容来自于近期神策数据举办的<智能推荐--应用场景与技术难点剖析>闭门会上的分享内容整理,分享者为神策数据副总裁张涛,曾就职于腾讯.映客和豌豆荚等知名互联网公司. 大家好,我是张涛,在 ...
- 个性化推荐从入门到精通(附推荐产品经理修炼秘籍)
本文内容来自于神策数据举办的<智能推荐--应用场景与技术难点剖析>闭门会上的分享内容整理,分享者为神策数据副总裁张涛,曾就职于腾讯.映客和豌豆荚等知名互联网公司. 大家好,我是张涛,在加入 ...
- 【回顾】神策数据VP张涛:个性化推荐从入门到精通
本文内容来自于神策数据举办的<智能推荐--应用场景与技术难点剖析>闭门会上的分享内容整理,分享者为神策数据副总裁张涛,曾就职于腾讯.映客和豌豆荚等知名互联网公司. 大家好,我是张涛,在加入 ...
- 个性化推荐从入门到精通
今天的分享将为大家解答以下几个问题:你的公司是否适合采用个性化推荐?如果需要个性化推荐,该如何做好?产品运营在参与到一个推荐系统的构建当中,有哪些常见的坑?有哪些可以避开这些坑的一些简单方法?以及如何 ...
- 神策数据张涛:个性化推荐从入门到精通
一. "四个关键"为你揭开推荐系统的神秘面纱 个人认为,推荐系统是根据用户以及不同的场景差异,对信息进行合理的排序.过滤,解决信息过载问题的一套机制.这个定义中包含四个关键点,如下 ...
- 基于机器学习的个性化推荐算法的研究
基于 机器学习 的个性化推荐算法的研究 摘要: 如今互联网发展 十分迅速,每天产生的数据量一直在增加,传统的搜索引擎已经不能够适用当前的需求,推荐系统已经成为互联网时代的新宠儿.它已经发展成为一门跨学 ...
- 今日头条的个性化推荐算法
互联网给用户带来了大量的信息,满足了用户在信息时代对信息的需求,但也使得用户在面 对大量信息时无法从中获得对自己真正有用的那部分信息,对信息的使用效率反而降低了, 而通常解决这个问题最常规的办法是推荐 ...
- 京东数据驱动下的个性化推荐
刘尚堃 京东数据驱动下的个性化推荐系统(PPT附下载) Optimus Prime 2015-11-12 7:09:10 人物观点 评论(0) 刘尚堃·京东推荐搜索部技术总监 刘尚堃,京东推荐搜索部技 ...
最新文章
- HAproxy七层负载均衡——环境搭建及实现过程详解
- centos中如何找出系统中 load 高时处于运行队列的进程
- git移除某文件夹的版本控制
- java中文件处理之图片_在Java 7中处理文件
- Linux02进程内存管理
- matlab里数组的赋值,arrays – MATLAB结构赋值数组
- XCODE 出现 The operation couldn't be completed.(LaunchServicesError error 0.)错误修复
- c++ java string_C++中string类型的内部结构是什么?
- txt简谱制作器上线(个人java程序)
- UE4开发笔记1——UE4(虚幻4)引擎下载与安装
- 科学计算机带度分秒,科学计算器度分秒
- 摩尔斯电码之Python实现
- 如何使用FreeSSL申请免费证书?
- TypeError: empty() received an invalid combination of arguments 报错
- QT开发代码格式化设置
- 控制器中接收数据的四种方式
- 万豪环保系列之《紫外线消毒器》
- 实验十 基于Simulink的爬山法MPPT技术仿真
- 请问汽车CD接线各个的字母代表什么,ACC,ILL,RR,FR,FL,RLANT,B/U,NC,CND,真诚的谢谢了
- c++第三次实验(定期存款利息计算器)
热门文章
- 内是不是半包围结构_半包围结构(软笔)
- 笨办法学python3 学习笔记 习题43	基本的面向对象分析和设计
- jy-11-AJAX--承租红+成恒
- vuex存储什么数据_【存储知识小讲堂系列】为什么数据隔离很重要 - IT业界_CIO时代网...
- 大数据技术Hive详解
- Glyce 一种针对中文汉字结构信息抽取的Embedding策略
- 一文彻底讲清Linux tty子系统架构及编程实例
- 计算机中的用户内存容量,按照 《2010 通则 》 ,以 CIF 汉堡条件成交,卖方对货物风险应负责...
- Java单元测试、反射、注解
- 网络连接里面是空白的没有什么的本地连接、interface:没有注册类别