前言

检索结果的多样化是检索系统的一个重要研究课题，其可以满足用户的各种兴趣和供应商的平等公平曝光。

然而，检索系统中（搜索与推荐领域）的多样性研究缺乏一个系统的汇总，并且研究点相对零散。本次介绍的paper中，首次提出了一个统一的分类法，用于对搜索和推荐中的多样化指标和方法进行分类，这也是检索系统中研究最为广泛的两个领域。

全文较长，感兴趣的小伙伴建议先收藏～

论文链接：https://arxiv.org/pdf/2212.14464.pdf

introduction

随着信息的爆炸式增长，检索系统越来越重要，其中搜索和推荐是检索系统的两个重要方向，两者都可以被视作是一个排序系统，搜索是根据用户的query检索出相关的doc，推荐是根据用户消费的item历史挖掘用户的兴趣点。

在很长一段时间内，relevance相关性是检索系统重要关注的指标，虽然这些系统能够很好的检索回来相关性的item，但是这在一定程度上伤害了用户和供应商，拿推荐场景来说，对于用户来说容易进入信息茧房，比如对于一个电影检索系统，当一个用户点击了《蝙蝠侠》后，系统之后就只推漫威电影，虽然相关性确实高，但是用户失去了看其他类型的电影的机会。对于供应商来说，系统总是愿意集中去曝光那一部分少的高流量item，对于一些冷启动或者低流量的item就没有机会曝光了，那就导致最后只有少部分受欢迎的供应商能够被曝光，而大部分供应商会放弃这个平台。

在搜索场景下，也面临着一些问题，比如在一个图片检索系统，当有一个query是“捷豹”时，通常返回的是“捷豹汽车”，尽管结果具有很高的相关性，但是这也是不合适的，因为“捷豹”还会有另外的意思比如说是一种动物。

因此近年来，除相关性以外的许多其他指标都受到了极大的关注，其中“多样性”是被最广泛研究的，其不仅可以增加满足用户短期和长期的各种需求，同时也有助于增加供应商（尤其是那些不太受欢迎的提供商）曝光

作者从KDD, NeurIPS等收集了80多篇paper，统计如下：

diversity in search

Extrinsic Diversity

外在多样性指在结果整体信息的不确定性，比如同样是搜索“辉瑞疫苗”，病人可能关心疫苗的功效，医生可能更关心疫苗的成分，而企业家可能更关心辉瑞这家公司。所以一个系统的外在多样性越大，其搜索的结果应该越能满足各种需求。

Intrinsic Diversity

内在多样性不同于外在多样性，其往往是能够知道一个明确的搜索意图的，例如“捷豹作为动物”的这个query，这个query基本上就没有什么歧义，但是即使这样，用户也是希望搜索出的捷豹图片是各种各样角度或者视角下的捷豹，而不是单一的视角下的捷豹，即避免结果冗余。

diversity concerns in recommendation

Individual-level Diversity

这个是对用户方面来说的，为了避免给用户每一次推荐的一样，所以多样性就至关重要啦

System-level Diversity

这个是对供应商方面来说的，为了体现公平，这个多样性就是保证那些不怎么受欢迎的供应商也具有曝光流量。

下面这个例子可以很好的说明两者的区别：其中不同的形状代表着不同的供应商，同一个形状下不同的颜色代表着不同的item。在case1中每个用户都可以都得到了不同供应商的item，所以Individual-level Diversity很高，但是所有用户都是得到那五家的item所以System-level Diversity很低；在case2中，每个用户得到的是不同供应商的曝光所以System-level Diversity很高，但是每个用户只是得到了同一个供应商的item，看不到别的供应商的item，所以Individual-level Diversity很低。