推荐和搜索系统的多样性研究综述
前言
检索结果的多样化是检索系统的一个重要研究课题,其可以满足用户的各种兴趣和供应商的平等公平曝光。
然而,检索系统中(搜索与推荐领域)的多样性研究缺乏一个系统的汇总,并且研究点相对零散。本次介绍的paper中,首次提出了一个统一的分类法,用于对搜索和推荐中的多样化指标和方法进行分类,这也是检索系统中研究最为广泛的两个领域。
全文较长,感兴趣的小伙伴建议先收藏~
论文链接:https://arxiv.org/pdf/2212.14464.pdf
introduction
随着信息的爆炸式增长,检索系统越来越重要,其中搜索和推荐是检索系统的两个重要方向,两者都可以被视作是一个排序系统,搜索是根据用户的query检索出相关的doc,推荐是根据用户消费的item历史挖掘用户的兴趣点。
在很长一段时间内,relevance相关性是检索系统重要关注的指标,虽然这些系统能够很好的检索回来相关性的item,但是这在一定程度上伤害了用户和供应商,拿推荐场景来说,对于用户来说容易进入信息茧房,比如对于一个电影检索系统,当一个用户点击了《蝙蝠侠》后,系统之后就只推漫威电影,虽然相关性确实高,但是用户失去了看其他类型的电影的机会。对于供应商来说,系统总是愿意集中去曝光那一部分少的高流量item,对于一些冷启动或者低流量的item就没有机会曝光了,那就导致最后只有少部分受欢迎的供应商能够被曝光,而大部分供应商会放弃这个平台。
在搜索场景下,也面临着一些问题,比如在一个图片检索系统,当有一个query是“捷豹”时,通常返回的是“捷豹汽车”,尽管结果具有很高的相关性,但是这也是不合适的,因为“捷豹”还会有另外的意思比如说是一种动物。
因此近年来,除相关性以外的许多其他指标都受到了极大的关注,其中“多样性”是被最广泛研究的,其不仅可以增加满足用户短期和长期的各种需求,同时也有助于增加供应商(尤其是那些不太受欢迎的提供商)曝光
作者从KDD, NeurIPS等收集了80多篇paper,统计如下:
![](/assets/blank.gif)
diversity in search
Extrinsic Diversity
外在多样性指在结果整体信息的不确定性,比如同样是搜索“辉瑞疫苗”,病人可能关心疫苗的功效,医生可能更关心疫苗的成分,而企业家可能更关心辉瑞这家公司。所以一个系统的外在多样性越大,其搜索的结果应该越能满足各种需求。
Intrinsic Diversity
内在多样性不同于外在多样性,其往往是能够知道一个明确的搜索意图的,例如“捷豹 作为动物”的这个query,这个query基本上就没有什么歧义,但是即使这样,用户也是希望搜索出的捷豹图片是各种各样角度或者视角下的捷豹,而不是单一的视角下的捷豹,即避免结果冗余。
diversity concerns in recommendation
Individual-level Diversity
这个是对用户方面来说的,为了避免给用户每一次推荐的一样,所以多样性就至关重要啦
System-level Diversity
这个是对供应商方面来说的,为了体现公平,这个多样性就是保证那些不怎么受欢迎的供应商也具有曝光流量。
下面这个例子可以很好的说明两者的区别:其中不同的形状代表着不同的供应商,同一个形状下不同的颜色代表着不同的item。在case1中每个用户都可以都得到了不同供应商的item,所以Individual-level Diversity很高,但是所有用户都是得到那五家的item所以System-level Diversity很低;在case2中,每个用户得到的是不同供应商的曝光所以System-level Diversity很高,但是每个用户只是得到了同一个供应商的item,看不到别的供应商的item,所以Individual-level Diversity很低。
![](/assets/blank.gif)
preliminaries and notations
这里定义了一些变量,方便后面讲解
![](/assets/blank.gif)
metrics of diversity in search and recommendation
作者对多样性指标进行统一的总结归纳如下:
![](/assets/blank.gif)
![](/assets/blank.gif)
Relevance-oblivious Diversity Metrics
relevance-oblivious 指标不考虑相关性,仅考虑多样性本身,作者进一步将其细化为Distance-based、Coverage-based和Social Welfare。
(1)Distance-based 定义
为检索回来的item列表、 为item 和 的距离,距离越小代表着越相似,多样性就越差,这里最常见的就是ILAD和ILMD,定义如下:
![](/assets/blank.gif)
在一些特殊的序列推荐场景中,每次只需要推荐w个连续的item给用户,所以就可以得到ILAD和ILMD两个变种ILALD和ILMLD如下:
![](/assets/blank.gif)
其中
的定义也有很多种,比如
(a) Cosine Diversity Distance : 基于余弦距离,这里通常需要item具有embedding,那么
(b) Jaccard Diversity Distance : 这里主要就是基于集合进行计算,其中集合的定义有两种,可以看到是基于item和user两个角度
![](/assets/blank.gif)
![](/assets/blank.gif)
在得到了集合后,就可以得到距离了:
![](/assets/blank.gif)
(c)Gower Diversity Distance: 假设$\delta {k}
之
间
第
k^{th} w{k}$是对应的权重,那么距离就是:
![](/assets/blank.gif)
(2)Coverage-based
(a) Rank-unaware
这里在设计指标的时候,不会考虑结果列表的顺序影响,常见的有P-Coverage、C-Coverage、S-Coverage,定义分别如下:
![](/assets/blank.gif)
![](/assets/blank.gif)
![](/assets/blank.gif)
其中
是可提供的所有item集合; 是检索系统可返回的item集合, 是返回的第i个item列表, 是item 覆盖的类别数量, 是代表一共有 个列表。可以看的出P-Coverage其实和常用的准确率定义差不多,C-Coverage在一定程度上可以衡量多样性,而S-Coverage是最被常用的,也和我们理解的多样性最贴切。
(b) Rank-awar
这里在设计的时候,会考虑item的顺序,因为在用户通常比较关心排在前面的几个item,也就说排在前面的几个item得到的曝光往往比较大,而排在后面的item很多,但是得到真实的曝光很少,所以考虑顺序很重要。
这里最常见的就是S-RR@100%、S-Recall@K、S-Precision@K,其定义分别如下:
![](/assets/blank.gif)
![](/assets/blank.gif)
![](/assets/blank.gif)
可以看到S-RR@100%是看当需要达到覆盖
个主题时需要的最少的item数量,所以S-RR@100%的值一定是大于等于 的。而后面两个是模仿相关性指标中Recall@K、Precision@K的,大同小异
(3)Social Welfare
其实不仅仅是计算机领域在研究多样性,其他诸如生态学和经济学等都也在研究,所以这里也有一些多样性指标是借鉴其他领域的。
(a) SD Index
其定义如下:
![](/assets/blank.gif)
代表整个item 类别数, 代表item数量, 代表在列表l中的item覆盖的类别数量 。
这里我们可以举个例子,假设这里一共有三个类别,系统A推荐出了10个item,其覆盖的类别分布是8,1,1;系统B推荐出了10个item,其覆盖的类别分布是4,3,3;那么系统A的SD Index大于系统B即
,也就是说系统B的多样性比系统A高。
(b) Gini Index
其定义如下:
![](/assets/blank.gif)
其主要是参考基尼系数的定义来设计的,其中
是item i的曝光数量,可以看到当Gini Index越小,说明每个item都越得到了平均数量的曝光,系统越公平那么多样性就越强。
Relevance-aware Diversity Metrics
尽管多样性很重要,但是相关性也同样还是很重要,就比如一个检索系统每次都随机返回一些item,其多样性肯定是很好的,但是其相关性也肯定很低,用户体验也还是很差。
为此可以同时考虑多样性和相关性,这里先介绍两个关于相关性排序的重要属性:Priority和Heaviness。
Priority是指:
是指一个item的相关性分数, 是指 这个item列表的整体相关性分数,当 时即item i的相关性分数小于item i的相关性分数且 即item j展露的位置比item i靠后,那么当交换item i和j的位置后,整个item列表的相关性都会变大即 。
Heaviness是指: 当
,且 ,那么
一般来说相关性指标都会满足上述两个属性。基于此可以把多样性指标(同时考虑相关性指标)分成如下两类指标
(1)Novelty-based Metrics
这类常见的指标大致可以分为如下几种
(a)
推荐和搜索系统的多样性研究综述相关推荐
- 基于深度学习的搜索、推荐、广告系统最全最新论文分享
推荐系统是有效的信息过滤工具,由于互联网接入的增加.个性化趋势和计算机用户习惯的改变,这种工具非常普遍.尽管现有的推荐系统成功地产生了不错的推荐,但是它们仍然面临着诸如准确性.可伸缩性和冷启动等挑战. ...
- 个性化学习推荐研究综述
个性化学习推荐是智能学习的一个研究领域,其目标是在学习平台上给特定学习者提供有效学习资源,从而提升学习积极性与学习效果.虽然现有的推荐方法已被广泛用于教学场景,但教学活动自身的科学规律,使个性化学习推 ...
- 《拜占庭系统技术研究综述_范捷》笔记
<拜占庭系统技术研究综述_范捷>笔记 文献信息:清华大学,期刊,2013,范捷 Abstract 分析了目前拜占庭系统的研究现状,并探讨了拜占庭系统的发展趋势 Conclusion 成果涌 ...
- 暨 广告、推荐、搜索 三大顶级复杂业务之 “广告业务系统详叙”
文章目录 暨 广告.推荐.搜索 三大顶级复杂业务之 "广告业务系统详叙" 广告系统的核心功能 ADX 架构流程概述 典型 ADX 架构图概述 消息中心 抱歉,有段日子没码字了,后面 ...
- 基于大数据方法的经济研究:前沿进展与研究综述 | 特别推荐
基于大数据方法的经济研究:前沿进展与研究综述 李华杰 史丹 马丽梅 摘要: 随着数据挖掘和分析技术的不断提高,基于大数据方法对经济的研究日益增多,大数据对经济研究和应用具有重要的现实意义.本文梳理了近 ...
- 【知识图谱】本周文献阅读笔记(4)——周三 2023.1.11:英文)基于动态知识图谱的虚假评论检测 + 基于知识图谱的推荐系统研究综述 + 基于知识图谱的推荐算法研究综述+新一代知识图谱关键技术
声明:仅学习使用~ 对于各文献,目前仅是泛读形式,摘出我认为重要的点,并非按照原目录进行简单罗列! 另:鉴于阅读paper数目稍多,对paper内提到的多数模型暂未细致思考分析.目的是总结整理关于KG ...
- 《强化学习周刊》第32期:上海交大华为 | 可解释强化学习研究综述
No.32 智源社区 强化学习组 强 化 学 习 研究 观点 资源 活动 关于周刊 强化学习作为人工智能领域研究热点之一,其研究进展与成果也引发了众多关注.为帮助研究与工程人员了解该领域的相关进展和 ...
- Nature子刊:用16S及18S rRNA全长进行微生物多样性研究
摘要 前段时间热心肠先生导读了<Nature子刊:高通量&无偏差,分析微生物群落的新方法>. 文中摘要提到:1.几十年以来细菌16S以及真核生物18S小亚基核糖体RNA(SSU r ...
- NBT:用16S及18S rRNA全长进行微生物多样性研究
摘要 前段时间热心肠先生导读了<Nature子刊:高通量&无偏差,分析微生物群落的新方法>. 文中摘要提到:1.几十年以来细菌16S以及真核生物18S小亚基核糖体RNA(SSU r ...
最新文章
- 三、前端开发-CSS
- 【Linux】一步一步学Linux——ssh命令(176)
- 用Swashbuckle给ASP.NET Core的项目自动生成Swagger的API帮助文档
- 使用C++代码打印数字正方形
- [C++] - C++11 多线程 - Condition Variable
- 前端基础:JavaScript 代码风格指南
- 图像检索:CEDD(Color and Edge Directivity Descriptor)算法
- 前端开发学习Day3
- oracle列表分区ADD VALUES或DROP VALUES包含数据变化
- 【CSAPP】程序的机器级表示:基础知识
- 解释一下label中的写法:plt.plot(t, sig, b-, linewidth=2, label=r$\sigma(t) = \frac{1}{1 + e^{-t}}$)...
- 新学期可以制定目标计划并提醒的便签软件是哪款?
- 学习淘宝分享出来的链接web检测打开原生App
- C. 实验7_3_奇数偶数
- 【电子数据取证】8个门道儿
- 指数为负数的幂函数 c语言,C语言:求幂函数和指数函数的方法
- 推荐使用:易企在线客服升级版
- CTU Open Contest 2017 Pond Cascade
- 批量写入mysql数据库的Python脚本
- Mariadb-my.cnf文件详解
热门文章
- 登录mysql 1251_Navicat 连接 MySql 报错1251解决方案(亲测)
- 2021.10.02 - 109.数字转换为十六进制数
- 基于Astar算法的栅格地图最优路径搜索matlab仿真,可以修改任意数量栅格
- java函数式编程入门
- Linux的数据库学习
- NetBIOS名字解析过程
- 计算机学院寝室文明风景线活动,弘扬寝室文化,建设文明寝室——数计学院开展寝室文化节活动!...
- 华创期货:日内交易简单方法有效规避亏损
- kav 优化设置(转)
- 开源 基于Android的SIP电话-----Speex 回音消除 在android 平台