AI内参_20_019_SIGIR_2018论文精读偏差和流行度之间的关系

你好，我是洪亮杰。

今天，我和你分享的主题是SIGIR二零一八论文精读偏差和流行度之间的关系。

二零一八年的国际信息检索研究与发展大会SIGIR于七月八日至十二日在美国密歇根州的安娜堡举行。

从今天开始，我将精选几篇大会上最有价值的论文和你一起来读。

我先简单介绍一下这个大会。

Sigir从一九七八年开始举办，有四十年的历史是信息检索和搜索领域的顶级会析。

从最初举办开始，这个会议就成了信息检索领域，特别是搜索技术和推荐技术方面的权威学术会议。

会议的内容往往包含了搜索、推荐、广告、信息提取、互联网、数据挖掘等诸多领域的优秀论文。

每年都吸引着来自世界各地的学者和工程师参会，来分享他们最新的研究成果。

今天我们首先来看一看今年的最佳论文，标题是推荐系统中流行度有效性的概率分析。

这篇论文一共有两位作者，均来自马德里自治大学。

第一作者罗西奥卡纳马雷斯已经发表了好几篇相关主题的论文。

第二作者帕布罗喀斯蒂洛斯是马德里自治大学，甚至是整个欧洲的信息检索学术权威。

论文有超过五千次的应用。

我们先来看这篇论文的主要贡献。

想要理解清楚这篇论文的主要贡献。

我们首先要从推荐系统，或者是从更大的方向上来看，所有信息检索系统都存在一个核心的问题，那就是偏差。

偏差会带来一系列问题，就很推荐系统，甚至信息检索系统的建模和评价都带来了巨大的挑战。

那么为什么信息检索系统会有偏差呢？我这里举一个简单的例子来说明。

假设我们有两个物品和很多用户对于每一个用户来说，系统都按照随机的顺序分别给用户展示这两个物品，并且询问用户是否喜欢在这样的假设里顺序是随机的。

因此，对于同一个用户来说，用户是否喜欢某一个商品，就完全取决于这个物品本身的属性。

对于所有用户来说，在整体上呈现的用户，对这两个物品的喜好，则完全来自于大家对这两个物品本身的一种评价。

那么我们可以看到，这里面没有任何的偏差。

然而只要这个场景稍微有一些改变，就很容易引入各种偏差。

比如我们有超过一万件物品，尽管我们还是随机的展示给用户，但用户可能在看过一定数量的物品之后就慢慢厌倦了。

那么用户对于物品的喜好判断或许就会受到厌倦的影响，甚至用户还很有可能直接放弃查后面的物品，还有很多相似的情况。

比如我们不是把每个商品逐一展示给用户看，而是提供一个列表。

那么用户很有可能会以为这个列表有一定的顺序。

比如在列表排名上方的物品可能是比较重要的。

有研究表明，在有列表的情况下，用户很可能会按照列表的顺序提供某种喜好判断。

很明显，在这样的情况下，用户的喜好判断就受到了这个列表顺序的干扰。

上面我们提到的都是表现偏差。

除此以外，一个星期系统其实还有很多类型的偏差，比如系统性偏差。

一个新闻系统只给用户推荐娱乐新闻，而不给用户看时政新闻。

在这样的情况下，用户表现出来的喜好性就是有偏差的。

因为系统没有给用户表达对时政新闻喜好的可能性，信息检索和推荐系统的学者甚至很早就意识到了偏差。

对于建模的影响，不管是我们这里提到的表现偏差，还是系统性偏差。

如果我们直接利用用户和系统交互产生的数据，那么训练出来的模型以及我们采用的衡量模型的办法也会有所偏差。

那我们得出的结论有可能就是不精准的这篇论文，就是希望能够系统性的讨论偏差。

在推荐系统中所带来的问题。

具体来说，这篇论文主要是探讨偏差和流行度之间的关系。

这里描述的是这样一种情况，有一些物品很有可能曾经给很多人推荐过，或者同时还被很多人喜欢过或者评价过。

那么这种流行度高的物品，会不会对推荐结果的评价带来意想不到的偏差呢？在过去的研究中，大家只是对这种流行度高的物品有一种直观上的怀疑。

认为如果一个推荐系统仅仅能够推荐流行的物品，那肯定是有偏差的。

但之前的很多工作并没有定量的去解释这里面偏差和评价之间的关系。

这篇论文就提供了一个立论框架，直到我们去理解偏差以及偏差带来的评测指标的一些变化。

今天我们不去讲这篇论文的理论框架细节，我会重点提供一个大体的思路，帮助你理解这篇论文希望达到的目的。

简单来说，为了表达偏差和流行度之间的关系，作者们用了这么几个随机变量，用户是否对某个物品打分，用户是否对某个物品有喜好，以及用户是否观看某个物品。

这里面的一个细节，或者说技巧，就是如何用概率的语言把这三者之间的关系给表达清楚。

作者其实采用了一些简化的假设。

比如假设在测试集上的物品是训练集上没有出现过的等等。

这样就能够写出在测试集上用户对物品评价的一个期望关系。

这个期望关系包含用户对所有测试物品是否有喜好。

有了这层期望关系以后，就开始推导出在测试集上理想状态下的最佳排序是一个什么样子。

在这里的理论讨论其实并没有很大的现实意义。

但是这是第一次研究人员用数学模型去详细表征一个最优的在测试集上的，按照流行度排序的结论。

紧接着，作者们还讨论了这个最优排序在两种极端情况下的变化。

一种情况是，用户过往的行为都是仅依赖于物品本身的属性，而没有任何其他偏差。

另外一种情况是，用户过往的行为和物品本身的属性无关，意思就是仅依赖于其他的偏差。

在第一种极端情况下，最优的排序其实也就是我们所能观测到的最优排序，那就是按照物品的流行度。

在第二种极端情况下，最优的排序其实是按照平均打分。

当然你可能会说，讨论这两种极端情况并没有现实意义啊。

但这两种极端情况的讨论其实就证明了，只有在没有偏差的情况下，按照物品的流行度排序才是平均情况下最优的，而很明显现实存在偏差。

因此，依靠流行度的排序，即便是平均情况下也不是最优的选择。

然后论文讨论了用户是否观看某一个物品对用户行为的影响。

关于这一部分的讨论，其实之前已经有很多工作都做了一些类似的探索。

不过这篇论文得出了一个有意思的结论，在考虑了用户观看物品的偏差以后，通过模拟的方法我们会发现随机结果的效果其实要比之前的观测值要好很多。

而按照流行度的排序虽然不错，但是比随机的效果并没有好很多。

而基于平均打分的结果，其实要优于按照流行度的排序。

可以说这是一个有别于之前很多工作的新发现。

虽然这篇论文获得了SIGIR二零一八的最佳论文奖，但是如果我们站在更大的角度上来分析，这篇论文，其实就会发现，实际上作者们是开发了一套特有的理论框架来描述推荐系统中的某一种偏差，更加普适化的对偏差的建模。

其实需要有随机化的数据，以及利用因果推断的办法来对任意情况下的偏差进行分析。

文章提出的概率模型，仅仅在这篇文章讨论的假设情况下才能成立。

当然，瑕不掩瑜，这篇文章不管是从结论上，还是从实际的分析过程中都为我们提供了很多有意义的内容，帮我们去思考偏差，对于建模所带来的挑战。

当然我们应该如何面对？今天我为你讲了今年SIGRR二零一八的最佳论文，一起来回顾一下要点。

第一，我们详细介绍了这篇文章要解决的问题和贡献，探讨偏差和流行度之间的关系，系统的来讨论偏差。

在推荐系统中所带来的问题。

第二，我们简要的介绍了文章提出方法的核心内容，包括设定随机变量、期望关系以及推导理想状态下的最佳排序。

第三，针对论文，我们简单进行了讨论，最后给你留一个思考题。

在不考虑偏差的情况下，为什么一般的推荐系统会偏好于推荐流行物品的算法呢？欢迎你给我留言，和我一起讨论。