AI内参_14_013_WSDM_2018论文精读看谷歌团队如何做位置偏差估计

你好，我是洪亮杰。

今天我和你分享的主题是WSDM二零一八论文精读看谷歌团队如何做位置偏差。

估计国际搜索和数据挖掘大会WSDM每年举办一次的搜索数据挖文以及积具学习的顶级会议。

根从二零零八年开始举办已经有十一届的历史。

尽管WSDM仅仅举办了十一届在计算机科学领域算是一个非常年轻的会议。

尽管WSDM快速积累的影响力已经使其成为了数据挖掘领域的一个顶级会议。

根据谷歌学习搜索公布的会据，目前WSDM已经是数据挖掘领域，仅次于KDD的学术会议。

而KDD已经举办了二十多年WSDM一大特点，就是有大量工业界的学者参与。

不管是投稿和发表论文，还是评审委员会或者大会组织委员会的成员，都有很多工业界背景的人员参加。

这可能是WSDM备受关注的一个参因，那就是大家对于工业界研究成果的重视。

同时也希望能够从中学习到最新的经验。

二零一八年的WSDM大会于二月五号到九号在美国的洛杉矶举行。

今天我们就来分享一下WSDM二零一八上来自谷歌的一篇文章无偏排序学习在个人搜索中的位置偏差。

估计这篇文章的核心内容是如何结合英果推断和排序学习，来对用户数据进行进一步无偏差的。

估计这篇论文的所有作者都来自谷歌，我们这里对作者群做一个简单的介绍。

第一作者，王选辉，二零一五年起在谷歌工作。

他之前在facebook工作了三年，我直从事广告系统的开发。

再往前是在雅虎担任了位置偏科，估计王选辉于二零零九年毕业于伊利诺伊大学香槟分校，获得计算机博士学位。

他的博士生导师是信息检索界著名的华人翟成祥第二作者纳达夫古尔班迪于二零一六年加入谷歌之前，在雅虎研究院担任了八年的主任级研究工程师，一直从事搜索方面的研发工作。

在雅虎研究院之前，古尔班迪在以色列的IBM研究院工作了六年，他拥有以色列理工大学的计算机硕士学位。

第三作者，迈克尔本德斯基于二零一二年加入谷歌，一直从事个人以及企业信息系统的研发工作。

他德斯基于二零一一年从马萨诸塞州阿姆赫斯特分校毕业，获得计算机博士工位。

他的导师是信息检索界的学术权威，布鲁特夸夫特。

第四作者，唐纳德梅泽尔也是二零一二年加入谷歌的，一直负责个人以及企业信息系统搜索质量的研发工作。

梅泽尔曾在雅虎研究院工作过两年多，然后还在南加州大学担任过教职。

梅泽尔是二零零七年从马萨诸塞州阿姆赫斯特分校计算机博士毕业导师，也是信息检索界的学术权威。

布鲁斯夸夫特文章的最后一个作者。

马克诺瓦克于二零一四年加入谷歌，目前担任研发总监的职位。

诺瓦克之前在微软研究院硅谷分布工作了十三年。

在之前，在DEC研究院工作了八年努瓦克市信息检索和互联网数据挖掘领域的学术权威。

之前担任过SM顶级学术期刊ACM transactions on the web的主编。

它发表过很多学术文章，引用数在七千以上。

按照我们阅读论文的方法，梳先来看这篇文章的主要贡献。

梳理清楚这篇文章主要解决了什么场景下的问题。

众所周知，所有的搜索系统都会有各种各样的偏差，如何能够更好的对这些偏差进行建模，就成为了对搜索系统进行机器学习的一个重要的挑战。

一种方式就是像传统的信息线索系统一样，利用人工来获得相关度的标签，不需要通过人机交互来获取相关度的信息。

所以也就更谈不上估计偏差的问题。

第二种文章中也有谈到的那就是利用传统的点击模型，点击模型是一种专门用来同时估计相关度和偏差的概率图模型。

过去十年左右的时间内，已经发展的相对比较成熟。

文章中也提到，大多数点击模型的应用主要是提取相关度信息，而并不在乎对偏差的估计是否准确。

第三种也是最近几年兴起的一个新的方向，那就是利用因果推断和排序学习的结合，直接对偏差进行建模。

在WSDM二零一七的最佳论文中，已经让我们见识了估计思路。

然而，在去年的那篇文章里，并没有详细探讨这个偏差的估计和点击模型的关系。

简言之，这篇论文主要是希望利用点击模型中的一些思路来更加准确的估计偏差，从而能够学习到更好的排序结果。

同时，这篇文章还探讨了如何能够在较少使用随机数据上来对偏差进行更好的估计。

这里作者们提出了一种叫做基于回归的期望，最大化算法。

下面我们来看论文的核心方法。

文章首先讨论了，如果已知偏差值，也就是用户看到每一个文档或者物品时的概率，我们就可以构造无偏差的指标。

比如无偏差的精度来衡量系统的好坏。

这里无偏差的效果主要是来自于重新对结果进行权重的调整。

意思是说，并不是每一个点击都被认为是同样的价值。

总的来说，如果文档位于比较高的位置上，那权重反而会比较低。

反之，如果文档位于比较低的位置上，权重反而较高，这里的假设是一种位置偏差，假设意思就是不管什么文档相对来说放在比较高的位置，都有可能获得更多的点击。

因此，在较低位置的文档被点击就显得更加难得，这种情况下，一般都无法直接知道偏差值。

因此，如何去估计偏差值就成了一个核心问题。

这篇文章在进行偏差值估计的方法上，首先利用了一个叫位置偏差模型的经典点击模型，对偏差值和相关度进行了建模。

位置偏差模型的假设是用户对于每个查询关键字的某一个位置上的文档点击概率都可以分解为两个概率的乘积。

一个是用户看到这个位置的概率，一个就是文档本身相关度的概率。

那么位置偏差模型的主要工作就是估计这两个概率值。

如果我们能够对每个查询关键字的结果进行随机化，那么我们就不需要估计第一个概率，而可以直接利用文档的点击率来估计文档的相关度。

但是作者们展示了彻底的随机化对于用户体验的影响。

另外一种方法相对来说比较照顾用户的体验，那就是不对所有的结果进行随机化，而仅仅是针对不同的配对之间进行随机化。

比如排位第一的和第二的文档位置随机互换，而后第二和第三的随机互换等等。

在这样的结果下，作者们依然能够对偏差和相关度进行估计，不过用户的体验就要比第一种完全随机的要好，只不过在现实中，这种方法依然会对用户体验有所损失。

于是，作者们提出了第三种方法，那就是直接对位置偏差模型进行参数估计。

也就是说，不希望利用随机化来完全消除其中的位置概率，而是估计位置概率和相关度概率。

这里因为有两个概率变量，需要估计，律师作者利用了传统的期望最大化算法，并且提出了一种叫做基于回归的期望最大化的方法。

为什么这么做呢？原因是在传统的期望最大化中，作者们必须对每一个关键字和文档的配对进行估计。

然而，在用户数据中，这样的配对其实可能非常有限，会陷入数据不足的情况。

因此，作者们提出了利用一个回归模型来估计文档和查询关键字的相关度，也就是说借助期望最大化来估计位置偏差，借助回归模型来估计相关度最后来看方法的实验效果。

这篇文章使用了谷歌的邮件和文件存储的搜索数据，采用了二零一七年四月两个星期的日志数据，大约有四百万个查询关键字，每个关键字大约有五个结果。

作者们在这个数据集上验证了提出的方法，能够更加有效的捕捉文档的偏差，利用了这种方法训练的排序模型，比没有考虑偏差的模型要好出百分之一到百分之二。

今天我为你讲了WSDM二零一八年的一篇来自谷歌团队的文章，这篇文章介绍了如何估计文档的位置偏差，然后训练出更加有效的排序算法。

一起来回顾一下要点。

第一，我们简要介绍了这篇文章的作者群信息。

第二，我们简细介绍了这篇文章要解决的问题以及贡献。

第三，我们简要的介绍了文章，提出方法的核心内容。

最后给你留一个思考题，如果要估计位置偏差，对数据的随机性有没有要求？欢迎你给我留言，和我一起讨论。