AI内参_15_014_WSDM_2018论文精读看京东团队如何挖掘商品的替代信息和互补信息

你好，我是洪亮杰。

今天我和你分享的主题是WSDM二零一八论文，精读看京东团队如何挖掘商品的替代信息和互补信息。

本周我们来精读WSDM的几篇论文。

周一，我们分享了一篇来自谷歌团队的文章，其核心是利用点击模型来对位置偏差进行更加有效的估计，从而能够学习到更好的排序算法。

今天，我们来精绍WSDM二零一八的最佳学术论文。

电子商务中可替代和互补产品的路径约束论架。

这篇文章来自于京东的数据科学实验室。

这篇论文的所有作者都来自京东大数据实验室。

我们这里对几位主要作者做一个简单介绍。

第三作者，任兆春目前在京东数据科学实验室担任高级研发经理。

他于二零一六年毕业于荷兰阿姆斯特丹大学获得计算机博士学位，是从著名的信息检索权威。

马丁德里杰克任兆春已经在多个国际会议和期刊上发表了多篇关于信息检索文字归纳、总结、推荐系统等多方面的论文。

第四，作者汤继良目前是密歇根州立大学的助理教授。

汤继良于二零一五年从亚利桑那州立大学毕业获得计算机博士学位，是从著名的数据挖掘专家刘欢教授，他于二零一六年加入密歇根州立大学，这之前是雅虎研究院的科学家。

汤继良是最近数据挖掘领域升起的一个华人学术新星，目前他已经发表了七十多篇论文，并且有四千多次的引用。

最后一位作者殷大伟目前是京东数据科学实验室的高级总监。

二零一六年，加入京东，并前在雅虎研究院工作，历任研究科学家和高级经理等职务。

殷大伟二零一三年从里海大学获得计算机博士学位，是从信息检索领域的专家戴维森教授，目前已经有很多高质量的研究工作发表。

我和殷大伟是博士期间的实验室同学，在雅虎研究院期间也是同事。

我们首先来看一下这篇文章的主要贡献。

梳理清楚文章主要解决了一个什么场景下的问题。

对于工业级商品推荐系统而言，一般通过两个步骤来产生推荐结果，第一步产生候选集合。

这里主要是从海量的物品中选择出几百到几千款，用户可能会购买的商品。

第二步，利用复杂的机器学习模型来对所有候选集中的产品进行排序。

这篇文章主要探讨了如何能够更好的产生候选级产品及如何更好的产生替代品和互补品，来丰富用户的购买体验。

那么，什么是替代品和互补品呢？根据这篇文章的定义，替代品就是用户觉得这些商品可以互相被替换的。

而互补品则是用户会一起购买的，挖掘这些商品不仅对于产生候选集具有很重要的意义，也对于某些场景下的推荐结果有很好的帮助。

比如，当用户已经购买了某一件商品之后，给用户推荐其他的互补品，虽然替代品和互补品对于互联网电商来说是很重要的推荐员，但并没有多少文献和已知方法来对这两类商品进行有效挖掘。

而且这里面一个很大的问题是数据的稀缺问题，因为替代品或者互补品都牵扯至少两个商品。

而对于巨型的商品库来说，绝大多数的商品都不是两个商品一起被同时考虑和购买过。

因此，如何解决数据的稀缺问题是一大难点。

另一方面，商品的属性是复杂的，同一款商品有可能在某些情况下是替代品，而在另外的情况下和互补品。

因此，如何在一个复杂的用户行为链路中挖掘出商品的属性就成为了一个难题，很多传统方法都是静态的看待这个问题，并不能很好的挖掘所有商品的潜力。

归纳起来，这篇文章有两个重要贡献。

第一，作者们提出了一种多关系学习的框架来挖掘替代品和互补品。

第二，为了解决数据的稀缺问题，两种路径约束被用于区别替代品和互补品。

作者们在实际的数据中验证了这两个新想法的作用。

下面我们来看论文的核心方法。

文章提出方法的第一步是通过关系来学习商品的表征。

这里文章并没有要区分替代品和互补品表征的学习，主要是用一个类似worto wake的方式来达到的。

也就是说，商品呈现如果有联系，不管是替代关系还是互补关系，都认为是正相关。

而其他的所有商品都认为是负相关。

于是，我们就可以通过worar to wake的思想来学习商品的表征表量，使得所有正相关的商品之间的向量点击结果较低，这相相关的向量点击结果较低。

这一基基本上where to to ke在商品集合上的一个应用。

通过第一步得到的每个商品的表征是一个比较笼统的综合的表征。

而我们之前已经提到了，而就是不同的情况了。

商商品可能呈出出不同的属性。

因此我们就需要根据不同的场景来商画产品的不同表征。

文章采用的方法是对于不同类型的关系，每个商品都有一个对应的表征。

这个关系特定的表征是从刚才我们学到的全局表征，投影到特定关系上的，这里需要学习的就是一个投影的向量。

第三个步骤就是挖掘、替代关系和互补关系了。

这篇文章使用了一个不太常见的技术，用模糊逻辑来表达商品之间的约束关系。

在这里，我们并不需要对模糊逻辑有完整的问题，只需要知道这是一种把硬逻辑关系转换成为通过概率方法表达的软逻辑关系的技术。

在这篇文章里，作者们重点介绍的是如何利用一系列的规则来解决数据稀缺的问题。

具体来说，那就是利用一些人们对于替代关系或者互补关系的观察。

比如商品a是商品b的替代品，那很可能商品a所在的类别就是商品b所在类别的替代品。

再比如商品b是商品a的替代品，而商品c又是商品b的替代品。

而比如商BC都属于一个类别。

那么我们也可以认为商品c是a的替代品。

总之，作者们人工的提出了这样一系列的规则，或者说叫做约束关系，希望能够使用这样的约束关系来尽可能的最大化现有数据的影响力。

当然，我们可以看到这样的约束并不是百分之百正确的这也就是作者们希望用软逻辑关系来进行约束的原因。

因为这其实也是一个概率的问题。

整个提出的模型最终是一个集大成的优化目标函数，也就是最开始的物品的综合表征，以及在特定的关系下的投影的学习，以及最后的软逻辑关系的学习。

这三个组件共同组成了最后的优化目标。

最后，我们来看方法的实验效果。

这篇文章使用了京东商城的五大类商品来做实验商品的综述，大大超过之前的一个亚马逊公开数据的数量。

作者重点比较了之前的一个来自加州大学圣地亚哥团队的模型，以及几个矩阵分解的经典模型，还比较了一个基于协同过滤的模型。

从总的效果上来看，这篇文章提出的模型，不管是在关系预测的子任务上，还是在最后的排序任务上，均要大幅度的好于其他模型。

同时，作者们也展示了逻辑关系，的确能够帮助目标函数，把替代关系和互补关系的商品区分开来。

今天我为你讲了WSDM二零一八年的一篇来自京东数据科学团队的文章。

这篇文章介绍了如何利用多关系学习以及模糊逻辑来挖掘商品的替代信息和互补信息，然后训练出更加有效的排序算法，一起来回顾一下要点。

第一，我们简要介绍了这篇文章的作者群信息。

第后，我们详细介绍了这篇文章要解决的问题以及贡献。

第三，我们简要的介绍了文章提出方法的核心内容以及实验的结果。

最后给你留一个思考题，互补商品或者替代商品是双向关系还是单向关系？为什么呢？欢迎你给我留言，和我一起讨论。