AI内参_17_016_The_Web_2018论文精读如何对商品的图片美感进行建模

你好，我是洪亮杰。

今天我和你分享的主题是the web二零一八论文精读。

如何对商品的图片美感进行建模？外围网大会前身叫做国际万维网大会，从一九九四年开始举办已有二十多年的历史了。

在谷歌学术排名上，是信息系统排名第一的国际顶级学术会议。

从外围网大会最初举办开始，这个会议就成为了互联网方面独一无二的权威学术会议。

会议包含搜索、推荐、广告、数据库、信息提取、互联网安全等诸多领域的优秀论文，每年都吸引着上千名世界各地的学者和工程师来分享他们的最新研究成果。

二零一八年的外维网大会于四月二十三号到二十七号在法国里昂举行。

整个会议收录了一百七十一篇论文，还有二十七个研讨班、十九个讲座、六十一个展板论文和三十个演示。

万维网大会的一大特点就是论文成果涵盖了非常广的领域，要在这些论文中找到有价值的学习信息，是一件非常耗时很辛苦的任务。

这里给你分享几篇。

我认为今年这个会议上最有价值的论文，希望能起到抛砖引玉的作用。

今天我们就来看一篇优秀论文提名，题目是基于美感的服装推荐。

这篇论文一共有六位作者，除了两位分别来自新加坡国立大学和美国的艾莫里大学之外，绝大多数作者都来自清华大学。

我们先来看论文的主要贡献，在现代的电商推荐系统中，商品特别是服装服饰的图片，其美观和质量是用户进行购买决策的关键。

参考因素。

不少过去的商品推荐系统已经考虑了图片的属性，特别是尝试同时利用图片信息和文字信息来实现多模数据理解的目的，从而能够进行更加智能的推荐。

不过，当前的大多数方案都只是考虑基本的图片特性。

从思路上来说，大多数的类似工作都是利用某种深度神经网络提取图片特性，然后和其他特性。

例如，我们说过的文本信息加以组合，从而能够扩宽我们对商品信息的提取。

这样提取出来的图像特征自然没有显示的对图像的美感进行建模。

这篇文章的作者认为，商品图片的美感是非常重要的属性，针对美感进行建模，会有更显著的商品推荐效果。

概括来说，这篇论文的一个贡献都是提供了一种模型来对图片的美感和一般性的图片语义特性同时进行建模。

这是一个在过去的工作中都没有的创经典。

我们接下来会详细说明这个模型的架构。

当作者们提取了图片的美感信息以后，接下来的一个问题就是如何利用这些特性这篇论文使用了张量分解的思路。

我们在前面介绍推荐系统的时候，曾经提到过，张量分解是一种很有效的，而且是常用的利用上下文语义信息的推荐模型和一些之前的工作类似。

这里作者们采用了三维的张量来表达用户商品和时间之间的关系。

同时，作者们还把图片信息有效的结合到了张量分解中，从而能够利用美感信息来影响推荐结果。

了解了这篇论文的大体思路。

以后我们现在来看看论文的第一个核心部件，如何利用深度神经网络来提取图片的美感信息呢？首先，这篇论文提出的模型假设是这样的，对于每一个商品，我们都有一个综合的美感标签，并且还有一个细节标签来表达这个商品图案的图像风格。

我们的综合标签是一个一至十的打分，而图像分格则是文字的图像特征。

比如高曝光、对比色等。

那么我们需要一个神经网络模型来同时对美感标签和细节的图像风格进行建模。

具体来说，文章提出的模型分为了两个层次，第一个层次是用来解释细节的图像风格。

在文本采用的数据中，一共有十四种图像风格，作者们就用了十四个子网络来针对这些风格，每个风格都对应一个独立的子神经网络，每一个子神经网络都是标准的卷积网络，他们的目标是尽可能的学习到特性来表示每个细节的图像风格。

当我们有了第一层的十四个子网络之后，再把这些子网络学习到的特性都整合起来，形成中间特性层。

然后在经过一个卷积网络，从而学习到一个对商品的整体美感评分进行解释的神经网络。

在文章中，作者们提出的这两个层次的神经网络并不是分类进行训练的，而是在一个整体中进行训练。

也就是说，我们同时训练底层的针对图像风格的十四个子网络的参数，以及高层层次的针对美感评分的网络的参数。

当我们得到了图片的美感信息之后，下一步就来看一下如何利用张量分解来进行商品推荐。

相比于传统的张量分解，在这篇文章中，作者们提出了一种新颖，是针对商品推荐的张量表达模式，叫做动态协同过滤，或简称为DCFDCF.认为每一个用户对于某个商品的购买取决于两个方面的因素。

第一，用户是否对这个商品有喜好。

第二，这个商品是不是符合时间维度上面的流行度。

作者们认为，只有当这两个条件同时满足的时候，也就是用户喜欢某个当季的商品时，才会做出购买的决定。

因此，作者们使用了两个矩阵分解来分别代表这两个假设。

第一个矩阵分解是针对用户和商品这个矩阵，这里我们会学习到用户对商品的喜好度。

第二个矩阵分解是针对时间和商品这个矩阵。

这里啊我们会学习到时间和商品的流行度。

然后作者把这两个矩阵分解，或者说把两个矩阵相乘。

这就得到了一个张量来表达用户在时间维度上对商品的喜好。

那么如何把刚才学习到的图片美感信息给融入到这个新的张量学习框架下呢？作者们是怎么做的？针对我们刚才所说的两个矩阵分解进行扩展。

刚才我们说这个张量分解是基于一个假设，那就是用户在时间维度上的购买决定，取决于用户是否对这个商品有喜好，以及这个商品是不是符合时间维度上面的流行度。

我们用了两个矩阵分解来表达这两个假设。

每一个矩阵分解都是把一个大的矩阵分解成两个向量，比如用户和商品的矩阵就被分解，成为用户特性和商品特性。

基于此，作者们就在这个用户和商品的矩阵后面，再加上一个商品和图片美感信息矩阵用来混合这两种信息。

也就是说，我们刚才的第一个假设，用户对商品的好感就被扩展成了两个矩阵的加和用户和商品矩阵以及商品和图片信息矩阵。

这两个矩阵的加和依然是一个矩阵，同理，时间和商品的流行度被扩展成了时间和商品矩阵以及商品和图片信息。

矩阵的加和。

也就是说新的模型是两个矩阵的乘积组成的张量分解，而这里的每个矩阵分别又是两个矩阵的加和，这就是作者们最终提出的模型。

那这个模型的实验效果怎么样呢？作者们在亚马逊的依附数据集上做了实验，来验证模型的有效性。

这个亚马逊的数据集由将近四万的用户两万多的商品和超过二十七万的购买信息构成。

除了这篇文章提出的模型以外，作者们还比较了一些其他算法，例如完全随机的算法，只推荐最流行的商品，传统的矩阵分解模型，以及只有基本图像信息但没有美感信息的算法等。

文章汇报了排序的精度、NDCG以及召回等指标。

从实验效果来看，这篇文章提出的模型要明显好于矩阵分解，以及只有基本图像信息的算法，表明针对产品的图像美感进行建模是有价值的。

并且作者们提出的新的张量分解方法也被证明是切实有效的。

今天我为你讲了今年万维网大会的一篇优秀论文文章，介绍了如何对商品的图片美感进行建模，以及如何把提取到的信息融入到一个基于张量分解的推荐系统中。

一起来回顾一下要点。

第一，我们详细介绍了这篇文章要解决的问题以及贡献。

第二，我们简要的介绍了文章提出方法的核心内容。

第三，我们简单分享了一下模型的实验成果。

最后给你留一个思考题，有没有在没有标签情况下对图片的美感进行建模的呢？欢迎你给我留言，和我一起讨论。