AI内参_16_015_WSDM_2018论文精读深度学习模型中如何使用上下文信息

你好，我是洪亮杰。

今天，我和你分享的主题是WSDM二零一八论文精读深度学习模型中如何使用上下文信息。

今天，我们继续来精读WSDM二零一八的一篇论文，隐含交叉，在循环推荐系统中利用上下文信息。

这篇文章同样出自谷歌团队，其核心思想是希望通过深度模型来模拟并实现在推荐系统中广泛使用的交叉特征的效果。

这篇论文的所有作者都来自谷歌，我们这里对其中的主要作者做一简单介绍文章的第一作者。

亚历克斯布伦特是谷歌的资深科学家，他二零一六年加入谷歌。

布伦特毕业于卡内基梅隆大学，获得计算机科学博士学位，师从机器学习的权威。

亚历克斯斯莫拉最后一位作者艾德驰是谷歌的主任科学家。

他拥有三十九项专利，已经发表了一百一十多篇论文。

在加入谷歌之前，驰是帕洛奥图研究中心的主任究员持毕业于明尼苏达大学获得计算机科学博士学位。

我们首先来看这篇文章的主要贡献。

梳理文章主要解决了一个什么场景下的问题，推荐系统经常需要对当下的场景进行建模。

有时候，这些场景被称作上下文。

在过去比较传统的方法中，已经有不少方法是探讨如何利用上下文信息进行推荐的，比如使用张量的形式进行建模。

还有一些方法是利用对时间特性的把握，但是对上下文信息进行处理。

近些年，随着深度学习的发展，越来越多的深度学习模型被应用到推荐系统领域中，但还没有直接探究如何在深度学习模型中使用上下文这篇文章就想在这一方面做一个尝试。

这里面有一个比较棘手的问题。

过去这样的上下文常常使用交叉特性，也就是两个特征的乘积，成为一个新的特征。

这样的方法在矩阵分解或者张量分解的模型中得到了非常广泛的使用。

然而，在深度学习中，过去的经验是不直接使用这样的特性。

但是，在上下文非常重要的推荐系统中，不使用交叉特性的结果，往往就是效果不尽如人意。

这篇文章提出了一个叫隐含交叉的概念，直接作用在嵌入这一层，从而能够在深度模型的架构上模拟出交叉特性的效果。

下面我们来看论文的核心方法。

作者们首先探讨了推荐系统中一个常见的特性，那就是利用交叉特性来达到一个低维的表达方式，这是矩阵分解的一个基本假设。

比如每一个评分都可以表达成一个用户特量和物品向量的点击。

那么作者们就提出了这样一个问题，作为深度学习的基石，前馈神经网络是否能够很好的模拟这个结构呢？通过模拟和小规模实验，作者们从经验上验证了深度学习的模型，其实并不能很好的抓住这样的交叉特性所带来的低维表达。

实际上，深度学习模型必否依赖更多的层数和更宽的层数，才能得到相同的交叉特性所达到的效果。

对于这一点，我们或多或少会感到一些意外。

那么作者们在传统的RNN上也做了相应的比较，这里就不复述了。

得到了这样的结果之后，作者们提出一个叫做隐含交叉的功型。

这个功能其实非常直观。

传统的深度学习建模是把多种不同的信息输入直接拼接在一起，隐含交叉是让当前的普通输入特性和上下文信息进行乘积，从而直接对交叉特性进行建模，这样做的好处是不言而喻的。

之前，我们寄希望于深度学习模型，自身能够学习到这样的交叉关系。

而现在，作者们直接让上下文信息作用于输入信息和其他的中间特征，使得上下文信息的作用得到了提升。

这篇文章提出的方法可以说是第一个尝试解决传统推荐系统的一些想法，使之移植到深度学习的语境中。

那么文章提出方法的实验效果如何呢？这篇文章使用了谷歌的youtube数据来做实验，作者们比较了一系列的方法，得出的结论是，RNN配合隐含交叉比，仅仅使用RNN的效果要好，百分之二到百分之三，这个提升已经是一个非常可观的数字了。

今天我为你讲了WSDM二零一八的一篇来自谷歌团队的文章。

这篇文章介绍了在传统推荐系统的模型中都有的交叉特性，如何应用？在深度学习中一起来回顾一下要点。

第一，我们简要介绍了这篇文章的作者群信息。

第二，我们详细介绍了这篇文章要解决的问题以及贡献。

第三，我们分析了文章提出方法的核心内容以及实验结果。

最后给你留一个思考题，深度学习模型在默认状态下，并不能很好的抓住交叉特性。

这是深度模型的问题吗？欢迎你给我留言。

深度学习讨论。