前言

检索结果的多样化是检索系统的一个重要研究课题,其可以满足用户的各种兴趣和供应商的平等公平曝光。

然而,检索系统中(搜索与推荐领域)的多样性研究缺乏一个系统的汇总,并且研究点相对零散。本次介绍的paper中,首次提出了一个统一的分类法,用于对搜索和推荐中的多样化指标和方法进行分类,这也是检索系统中研究最为广泛的两个领域。

全文较长,感兴趣的小伙伴建议先收藏~

论文链接:https://arxiv.org/pdf/2212.14464.pdf

introduction

随着信息的爆炸式增长,检索系统越来越重要,其中搜索和推荐是检索系统的两个重要方向,两者都可以被视作是一个排序系统,搜索是根据用户的query检索出相关的doc,推荐是根据用户消费的item历史挖掘用户的兴趣点。

在很长一段时间内,relevance相关性是检索系统重要关注的指标,虽然这些系统能够很好的检索回来相关性的item,但是这在一定程度上伤害了用户和供应商,拿推荐场景来说,对于用户来说容易进入信息茧房,比如对于一个电影检索系统,当一个用户点击了《蝙蝠侠》后,系统之后就只推漫威电影,虽然相关性确实高,但是用户失去了看其他类型的电影的机会。对于供应商来说,系统总是愿意集中去曝光那一部分少的高流量item,对于一些冷启动或者低流量的item就没有机会曝光了,那就导致最后只有少部分受欢迎的供应商能够被曝光,而大部分供应商会放弃这个平台。

在搜索场景下,也面临着一些问题,比如在一个图片检索系统,当有一个query是“捷豹”时,通常返回的是“捷豹汽车”,尽管结果具有很高的相关性,但是这也是不合适的,因为“捷豹”还会有另外的意思比如说是一种动物。

因此近年来,除相关性以外的许多其他指标都受到了极大的关注,其中“多样性”是被最广泛研究的,其不仅可以增加满足用户短期和长期的各种需求,同时也有助于增加供应商(尤其是那些不太受欢迎的提供商)曝光

作者从KDD, NeurIPS等收集了80多篇paper,统计如下:


diversity in search

  • Extrinsic Diversity

外在多样性指在结果整体信息的不确定性,比如同样是搜索“辉瑞疫苗”,病人可能关心疫苗的功效,医生可能更关心疫苗的成分,而企业家可能更关心辉瑞这家公司。所以一个系统的外在多样性越大,其搜索的结果应该越能满足各种需求。

  • Intrinsic Diversity

内在多样性不同于外在多样性,其往往是能够知道一个明确的搜索意图的,例如“捷豹 作为动物”的这个query,这个query基本上就没有什么歧义,但是即使这样,用户也是希望搜索出的捷豹图片是各种各样角度或者视角下的捷豹,而不是单一的视角下的捷豹,即避免结果冗余。

diversity concerns in recommendation

  • Individual-level Diversity

这个是对用户方面来说的,为了避免给用户每一次推荐的一样,所以多样性就至关重要啦

  • System-level Diversity

这个是对供应商方面来说的,为了体现公平,这个多样性就是保证那些不怎么受欢迎的供应商也具有曝光流量。

下面这个例子可以很好的说明两者的区别:其中不同的形状代表着不同的供应商,同一个形状下不同的颜色代表着不同的item。在case1中每个用户都可以都得到了不同供应商的item,所以Individual-level Diversity很高,但是所有用户都是得到那五家的item所以System-level Diversity很低;在case2中,每个用户得到的是不同供应商的曝光所以System-level Diversity很高,但是每个用户只是得到了同一个供应商的item,看不到别的供应商的item,所以Individual-level Diversity很低。


preliminaries and notations

这里定义了一些变量,方便后面讲解


metrics of diversity in search and recommendation

作者对多样性指标进行统一的总结归纳如下:



  • Relevance-oblivious Diversity Metrics

relevance-oblivious 指标不考虑相关性,仅考虑多样性本身,作者进一步将其细化为Distance-based、Coverage-based和Social Welfare。

(1)Distance-based 定义




为检索回来的item列表、












为item



















的距离,距离越小代表着越相似,多样性就越差,这里最常见的就是ILAD和ILMD,定义如下:


在一些特殊的序列推荐场景中,每次只需要推荐w个连续的item给用户,所以就可以得到ILAD和ILMD两个变种ILALD和ILMLD如下:


其中












的定义也有很多种,比如

(a) Cosine Diversity Distance : 基于余弦距离,这里通常需要item具有embedding,那么













































(b) Jaccard Diversity Distance : 这里主要就是基于集合进行计算,其中集合的定义有两种,可以看到是基于item和user两个角度



在得到了集合后,就可以得到距离了:


(c)Gower Diversity Distance: 假设$\delta {k}





























k^{th}






















,



w
{k}$是对应的权重,那么距离就是:


(2)Coverage-based

(a) Rank-unaware

这里在设计指标的时候,不会考虑结果列表的顺序影响,常见的有P-Coverage、C-Coverage、S-Coverage,定义分别如下:




其中






是可提供的所有item集合;











是检索系统可返回的item集合,









是返回的第i个item列表,









是item




覆盖的类别数量,




是代表一共有




个列表。可以看的出P-Coverage其实和常用的准确率定义差不多,C-Coverage在一定程度上可以衡量多样性,而S-Coverage是最被常用的,也和我们理解的多样性最贴切。

(b) Rank-awar

这里在设计的时候,会考虑item的顺序,因为在用户通常比较关心排在前面的几个item,也就说排在前面的几个item得到的曝光往往比较大,而排在后面的item很多,但是得到真实的曝光很少,所以考虑顺序很重要。

这里最常见的就是S-RR@100%、S-Recall@K、S-Precision@K,其定义分别如下:




可以看到S-RR@100%是看当需要达到覆盖









个主题时需要的最少的item数量,所以S-RR@100%的值一定是大于等于









的。而后面两个是模仿相关性指标中Recall@K、Precision@K的,大同小异

(3)Social Welfare

其实不仅仅是计算机领域在研究多样性,其他诸如生态学和经济学等都也在研究,所以这里也有一些多样性指标是借鉴其他领域的。

(a) SD Index

其定义如下:












代表整个item 类别数,




代表item数量,














代表在列表l中的item覆盖的类别数量









这里我们可以举个例子,假设这里一共有三个类别,系统A推荐出了10个item,其覆盖的类别分布是8,1,1;系统B推荐出了10个item,其覆盖的类别分布是4,3,3;那么系统A的SD Index大于系统B即














































,也就是说系统B的多样性比系统A高。

(b) Gini Index

其定义如下:


其主要是参考基尼系数的定义来设计的,其中









是item i的曝光数量,可以看到当Gini Index越小,说明每个item都越得到了平均数量的曝光,系统越公平那么多样性就越强。

  • Relevance-aware Diversity Metrics

尽管多样性很重要,但是相关性也同样还是很重要,就比如一个检索系统每次都随机返回一些item,其多样性肯定是很好的,但是其相关性也肯定很低,用户体验也还是很差。

为此可以同时考虑多样性和相关性,这里先介绍两个关于相关性排序的重要属性:Priority和Heaviness。

Priority是指:







是指一个item的相关性分数,







是指




这个item列表的整体相关性分数,当






















时即item i的相关性分数小于item i的相关性分数且
































即item j展露的位置比item i靠后,那么当交换item i和j的位置后,整个item列表的相关性都会变大即





























Heaviness是指: 当
























































,且












































































,那么




























































一般来说相关性指标都会满足上述两个属性。基于此可以把多样性指标(同时考虑相关性指标)分成如下两类指标

(1)Novelty-based Metrics

这类常见的指标大致可以分为如下几种

(a)

推荐和搜索系统的多样性研究综述相关推荐

  1. 基于深度学习的搜索、推荐、广告系统最全最新论文分享

    推荐系统是有效的信息过滤工具,由于互联网接入的增加.个性化趋势和计算机用户习惯的改变,这种工具非常普遍.尽管现有的推荐系统成功地产生了不错的推荐,但是它们仍然面临着诸如准确性.可伸缩性和冷启动等挑战. ...

  2. 个性化学习推荐研究综述

    个性化学习推荐是智能学习的一个研究领域,其目标是在学习平台上给特定学习者提供有效学习资源,从而提升学习积极性与学习效果.虽然现有的推荐方法已被广泛用于教学场景,但教学活动自身的科学规律,使个性化学习推 ...

  3. 《拜占庭系统技术研究综述_范捷》笔记

    <拜占庭系统技术研究综述_范捷>笔记 文献信息:清华大学,期刊,2013,范捷 Abstract 分析了目前拜占庭系统的研究现状,并探讨了拜占庭系统的发展趋势 Conclusion 成果涌 ...

  4. 暨 广告、推荐、搜索 三大顶级复杂业务之 “广告业务系统详叙”

    文章目录 暨 广告.推荐.搜索 三大顶级复杂业务之 "广告业务系统详叙" 广告系统的核心功能 ADX 架构流程概述 典型 ADX 架构图概述 消息中心 抱歉,有段日子没码字了,后面 ...

  5. 基于大数据方法的经济研究:前沿进展与研究综述 | 特别推荐

    基于大数据方法的经济研究:前沿进展与研究综述 李华杰 史丹 马丽梅 摘要: 随着数据挖掘和分析技术的不断提高,基于大数据方法对经济的研究日益增多,大数据对经济研究和应用具有重要的现实意义.本文梳理了近 ...

  6. 【知识图谱】本周文献阅读笔记(4)——周三 2023.1.11:英文)基于动态知识图谱的虚假评论检测 + 基于知识图谱的推荐系统研究综述 + 基于知识图谱的推荐算法研究综述+新一代知识图谱关键技术

    声明:仅学习使用~ 对于各文献,目前仅是泛读形式,摘出我认为重要的点,并非按照原目录进行简单罗列! 另:鉴于阅读paper数目稍多,对paper内提到的多数模型暂未细致思考分析.目的是总结整理关于KG ...

  7. 《强化学习周刊》第32期:上海交大华为 | 可解释强化学习研究综述

    No.32 智源社区 强化学习组 强 化 学  习 研究 观点 资源 活动 关于周刊 强化学习作为人工智能领域研究热点之一,其研究进展与成果也引发了众多关注.为帮助研究与工程人员了解该领域的相关进展和 ...

  8. Nature子刊:用16S及18S rRNA全长进行微生物多样性研究

    摘要 前段时间热心肠先生导读了<Nature子刊:高通量&无偏差,分析微生物群落的新方法>. 文中摘要提到:1.几十年以来细菌16S以及真核生物18S小亚基核糖体RNA(SSU r ...

  9. NBT:用16S及18S rRNA全长进行微生物多样性研究

    摘要 前段时间热心肠先生导读了<Nature子刊:高通量&无偏差,分析微生物群落的新方法>. 文中摘要提到:1.几十年以来细菌16S以及真核生物18S小亚基核糖体RNA(SSU r ...

最新文章

  1. 三、前端开发-CSS
  2. 【Linux】一步一步学Linux——ssh命令(176)
  3. 用Swashbuckle给ASP.NET Core的项目自动生成Swagger的API帮助文档
  4. 使用C++代码打印数字正方形
  5. [C++] - C++11 多线程 - Condition Variable
  6. 前端基础:JavaScript 代码风格指南
  7. 图像检索:CEDD(Color and Edge Directivity Descriptor)算法
  8. 前端开发学习Day3
  9. oracle列表分区ADD VALUES或DROP VALUES包含数据变化
  10. 【CSAPP】程序的机器级表示:基础知识
  11. 解释一下label中的写法:plt.plot(t, sig, b-, linewidth=2, label=r$\sigma(t) = \frac{1}{1 + e^{-t}}$)...
  12. 新学期可以制定目标计划并提醒的便签软件是哪款?
  13. 学习淘宝分享出来的链接web检测打开原生App
  14. C. 实验7_3_奇数偶数
  15. 【电子数据取证】8个门道儿
  16. 指数为负数的幂函数 c语言,C语言:求幂函数和指数函数的方法
  17. 推荐使用:易企在线客服升级版
  18. CTU Open Contest 2017 Pond Cascade
  19. 批量写入mysql数据库的Python脚本
  20. Mariadb-my.cnf文件详解

热门文章

  1. 登录mysql 1251_Navicat 连接 MySql 报错1251解决方案(亲测)
  2. 2021.10.02 - 109.数字转换为十六进制数
  3. 基于Astar算法的栅格地图最优路径搜索matlab仿真,可以修改任意数量栅格
  4. java函数式编程入门
  5. Linux的数据库学习
  6. NetBIOS名字解析过程
  7. 计算机学院寝室文明风景线活动,弘扬寝室文化,建设文明寝室——数计学院开展寝室文化节活动!...
  8. 华创期货:日内交易简单方法有效规避亏损
  9. kav 优化设置(转)
  10. 开源 基于Android的SIP电话-----Speex 回音消除 在android 平台