文章目录

  • 一、相关反馈的简介
  • 二、反馈种类
  • 三、查询优化
    • 3.1 优化流程
    • 3.2 具体方法
      • 已知相关文档集情况
      • 未知相关文档集情况
    • 3.3 相关分析/兴趣分析
  • 四、文档权重优化
    • 4.1 机制
    • 4.2 实际问题

一、相关反馈的简介

相关反馈(Relevance Feedback)是某些信息检索系统的一个特征,用于评价被回溯(或者说检索)到的文章是否与需要的信息相关。有时用户只使用了一两个关键词用于检索,但我们很难弄清回溯结果是否符合用户需求。

二、反馈种类

  • 显式反馈 Explicit Feedback来自用户对回溯文档是否相关的直接反馈,反馈通常为评分或者二进制的Good/Bad。但是用户一般不会愿意花费精力去提供反馈。
  • 隐式反馈 Implicit Feedback通过用户的行为来判断用户的喜好,如用户的点击、浏览时间、文档注释等。通常搜索引擎还会列出相关搜索词,譬如我们耳熟能详的:“你要找的是不是xxx”来作为反馈信息。
  • 盲反馈Blind Feedback也称伪反馈,是由计算机自动处理检索结果,不需要用户的参与也可以得到比较满意的检索效果。这种方法假定用户初始检索结果的前k篇文档是相关的,再由系统抽选出这k篇文档的特征词,然后把这些特征词和初始查询词再放入搜索框中进行二次检索,这种行为我们称之为查询扩展Query Expansion。通过扩展查询词可以提高检索系统的性能,

三、查询优化

3.1 优化流程

在盲反馈中我们提到了查询扩展Query Expansion,指的是在原始查询中加入新的关键词不去掉原有查询关键词。一个相似的概念是查询优化Query Reformulation\Modification,目标是让查询结果相关度从低变高,这个概念经常跟Query Expansion混用,但是实际上我们不关心这两个概念的异同,因为最终的目标是尽可能获得好的查询结果。
查询优化的流程可以用下图表示:

  • 原始查询Q回溯文档集F
  • 用相关分析函数判断文档集的相关程度
  • 根据相关程度分析结果对查询进行优化,
  • 将优化后的查询作为新一轮回溯的输入
  • 反复上述4步直到结果收敛。优化查询后的回溯文档集应该比原始文档集包含更多相关文档,如下图所示

3.2 具体方法

老子有曰:“天之道,损有余而补不足;人之道,损不足而益有余”。我们优化查询的目的有二,一是损不足:弱化导致回溯不相关结果的关键词,譬如,如果我们想查的是苹果电脑,那戴尔、惠普的电脑应该被屏蔽,我们需要把戴尔和电脑两个关键词的权重减轻;二是益有余:加强导致回溯相关结果的关键词,譬如原始查询为apple,如果用户认为apple 和iPod是相关结果的,那么我们就应当加强apple和iPod这两个关键词的权重。下面我们将讨论如何得到最优的查询。

已知相关文档集情况

假设相关文档集是 D R D_R DR​,不相关文档集是 D N D_N DN​, t i , j t_{i,j} ti,j​表示关键词 i i i在文档 j j j的权重,我们通过求加权的关键词得到文档集中心, D R D_R DR​的中心 D R ′ = ∑ j ∈ D R t i , j ∣ D R ∣ D'_R=\dfrac{\sum_{j\in D_R}t_{i,j}}{|D_R|} DR′​=∣DR​∣∑j∈DR​​ti,j​​, D N D_N DN​的中心点是 D N ′ = ∑ j ∈ D N t i , j ∣ D N ∣ D'_N=\dfrac{\sum_{j\in D_N}t_{i,j}}{|D_N|} DN′​=∣DN​∣∑j∈DN​​ti,j​​。假设 C C C是一个经验加权常数矩阵,我们可以把最优查询 Q o p t Q_{opt} Qopt​表示为 Q o p t = C ( D R ′ − D N ′ ) Q_{opt}=C(D'_R-D'_N) Qopt​=C(DR′​−DN′​)

未知相关文档集情况

一般情况下,推荐系统很难完全掌握所有的相关文档,我们通常是渐进地修改查询结果。假设 D R ′ D_{R'} DR′​和 D N ′ D_{N'} DN′​是用户判断的相关文档集和不相关文档集, Q Q Q是输入的查询, Q ′ Q' Q′是优化的查询, α \alpha α、 β \beta β、 γ \gamma γ是常数,我们可以把优化过程表示为以下方程 Q ′ = α Q + β ( ∑ i ∈ D R ′ D i ∣ D R ′ ∣ ) + γ ( ∑ i ∈ D N ′ D i ∣ D N ′ ∣ ) Q'=\alpha Q+\beta(\dfrac{\sum_{i\in D_{R'}}D_i}{|D_{R'}|})+\gamma(\dfrac{\sum_{i\in D_{N'}}D_i}{|D_{N'}|}) Q′=αQ+β(∣DR′​∣∑i∈DR′​​Di​​)+γ(∣DN′​∣∑i∈DN′​​Di​​)

3.3 相关分析/兴趣分析

这里顺带介绍下我们教授Dik Lun Lee的工作

搜索引擎(四)--相关反馈与个性化推荐相关推荐

  1. PAI和Hologres的个性化推荐最佳实践

    简介:常见的个性化推荐系统包括日志收集,数据加工,召回,排序,离在线效果评估等诸多环节,对于中小客户存在技术门槛高,搭建周期长等问题.计算平台基于 PAI,Hologres,MaxCompute,Da ...

  2. 神策数据 VP 张涛:个性化推荐从入门到精通(附推荐产品经理修炼秘籍)

    本文内容来自于近期神策数据举办的<智能推荐--应用场景与技术难点剖析>闭门会上的分享内容整理,分享者为神策数据副总裁张涛,曾就职于腾讯.映客和豌豆荚等知名互联网公司. 大家好,我是张涛,在 ...

  3. 个性化推荐从入门到精通(附推荐产品经理修炼秘籍)

    本文内容来自于神策数据举办的<智能推荐--应用场景与技术难点剖析>闭门会上的分享内容整理,分享者为神策数据副总裁张涛,曾就职于腾讯.映客和豌豆荚等知名互联网公司. 大家好,我是张涛,在加入 ...

  4. 【回顾】神策数据VP张涛:个性化推荐从入门到精通

    本文内容来自于神策数据举办的<智能推荐--应用场景与技术难点剖析>闭门会上的分享内容整理,分享者为神策数据副总裁张涛,曾就职于腾讯.映客和豌豆荚等知名互联网公司. 大家好,我是张涛,在加入 ...

  5. 个性化推荐从入门到精通

    今天的分享将为大家解答以下几个问题:你的公司是否适合采用个性化推荐?如果需要个性化推荐,该如何做好?产品运营在参与到一个推荐系统的构建当中,有哪些常见的坑?有哪些可以避开这些坑的一些简单方法?以及如何 ...

  6. 神策数据张涛:个性化推荐从入门到精通

    一. "四个关键"为你揭开推荐系统的神秘面纱 个人认为,推荐系统是根据用户以及不同的场景差异,对信息进行合理的排序.过滤,解决信息过载问题的一套机制.这个定义中包含四个关键点,如下 ...

  7. 基于机器学习的个性化推荐算法的研究

    基于 机器学习 的个性化推荐算法的研究 摘要: 如今互联网发展 十分迅速,每天产生的数据量一直在增加,传统的搜索引擎已经不能够适用当前的需求,推荐系统已经成为互联网时代的新宠儿.它已经发展成为一门跨学 ...

  8. 今日头条的个性化推荐算法

    互联网给用户带来了大量的信息,满足了用户在信息时代对信息的需求,但也使得用户在面 对大量信息时无法从中获得对自己真正有用的那部分信息,对信息的使用效率反而降低了, 而通常解决这个问题最常规的办法是推荐 ...

  9. 京东数据驱动下的个性化推荐

    刘尚堃 京东数据驱动下的个性化推荐系统(PPT附下载) Optimus Prime 2015-11-12 7:09:10 人物观点 评论(0) 刘尚堃·京东推荐搜索部技术总监 刘尚堃,京东推荐搜索部技 ...

最新文章

  1. HAproxy七层负载均衡——环境搭建及实现过程详解
  2. centos中如何找出系统中 load 高时处于运行队列的进程
  3. git移除某文件夹的版本控制
  4. java中文件处理之图片_在Java 7中处理文件
  5. Linux02进程内存管理
  6. matlab里数组的赋值,arrays – MATLAB结构赋值数组
  7. XCODE 出现 The operation couldn't be completed.(LaunchServicesError error 0.)错误修复
  8. c++ java string_C++中string类型的内部结构是什么?
  9. txt简谱制作器上线(个人java程序)
  10. UE4开发笔记1——UE4(虚幻4)引擎下载与安装
  11. 科学计算机带度分秒,科学计算器度分秒
  12. 摩尔斯电码之Python实现
  13. 如何使用FreeSSL申请免费证书?
  14. TypeError: empty() received an invalid combination of arguments 报错
  15. QT开发代码格式化设置
  16. 控制器中接收数据的四种方式
  17. 万豪环保系列之《紫外线消毒器》
  18. 实验十 基于Simulink的爬山法MPPT技术仿真
  19. 请问汽车CD接线各个的字母代表什么,ACC,ILL,RR,FR,FL,RLANT,B/U,NC,CND,真诚的谢谢了
  20. c++第三次实验(定期存款利息计算器)

热门文章

  1. 内是不是半包围结构_半包围结构(软笔)
  2. 笨办法学python3 学习笔记 习题43 基本的面向对象分析和设计
  3. jy-11-AJAX--承租红+成恒
  4. vuex存储什么数据_【存储知识小讲堂系列】为什么数据隔离很重要 - IT业界_CIO时代网...
  5. 大数据技术Hive详解
  6. Glyce 一种针对中文汉字结构信息抽取的Embedding策略
  7. 一文彻底讲清Linux tty子系统架构及编程实例
  8. 计算机中的用户内存容量,按照 《2010 通则 》 ,以 CIF 汉堡条件成交,卖方对货物风险应负责...
  9. Java单元测试、反射、注解
  10. 网络连接里面是空白的没有什么的本地连接、interface:没有注册类别