AI内参_91_087_阿里巴巴的广告点击率预估模型

你好，我是洪亮杰。

今天我和你分享的主题是阿里巴巴的广告点击率预估模型。

今天，我们继续来进行点击率预估的案例分析，结合三篇核心论文，来看一看阿里巴巴的广告预估又有哪些值得我们学习的地方。

我们先来看第一个话题，多段线性模型。

我们之前介绍了多个公司关于点击率或者转化率预估的案例。

从这些案例中，你可能已经发现有两个非常重要的特征需要机器学习模型来处理。

第一就是数据中呈现的非线性化的关系。

也就是说，我们的模型必须在某一个地方考虑到特性之间的非线性表征，以及对于目标标签的非线性关系。

第二就是数据的不均衡以及数据的稀疏性。

有很多广告商是新广告商，很多广告是新广告。

在这样的情况下，我们就必须要处理冷启动和热启动这两种局面。

在从广告点击率预估的大规模数据中，学习多段线性模型。

这篇文章中，作者们提出了一种多段线性模型来解决我们刚刚说的这两个问题。

这个模型简称为LSPLMLSPLM的核心思路其实非常直观。

既然数据在整个空间里可能呈现非线性的关系，那么我们是否能够把整个空间分割成较小的区域，使得每个区域内依然可以使用线性模型来逼近这个区域内的数据点呢？其实，在统计学习中，这种模型常常被叫做混合模型。

在很多机器学习教科书中都会讲授一种混合模型，是高斯混合模型。

Lsplm.在这篇论文的实际应用中，基本上可以被理解成为一种混合线性模型。

这个模型的一个子模型叫做分割函数。

也就是模型需要学习每一个数据点到底是依赖于哪一个线性模型来进行预测的。

当然这个分割是一种概率的分割。

实际上，每一个数据点都依赖所有的线性模型来进行预测，只不过对每个模型的依赖程度不一样。

对于每一个不同的线性就模型来说，最大的不同就是每一个模型有自己的系数。

也就是说之前只有一个全局模型，并且只有一组系数。

相比之下，这里有多组系数来决定模型的预测效果很明显。

对于LSPLM来说，每一个局部都是线性的，但是在整体上依然是一个非线性的模型。

Lsplm还借助了两种正则化机制，一种叫做l一正则。

这种正则化主要是希望模型保留尽可能少的特性，从而达到对于模型特性的选择。

另外，模型还采用了一种方法，就是二范数的一范数正则化。

这种方法的目的也是特性选择，但是希望能够把一组特性全部选择或者全部置零。

在实际的实验中，作者们尝试了不同数目的数据分割。

从两个到三十六个不等。

最终他们发现当数据分割为十二个的时候，模型的效果达到最优。

而之后模型效果并没有明显提升，最终推出模型的AUC比，直接使用一个对数概率回归的全局模型效果要好百分之一点四。

接下来我们来讨论广告点击率预估和图像处理的结合。

我们在电商上购物对于商品的图像会不会影响我们的点击或者购买，应该有一个直观的感受。

那么在广告的点击率预估上，商品的图像特征对于模型性能上的提高到底有没有帮助呢？我们再来看一篇论文，在这篇文章中，阿里巴巴的工程师就尝试对这个问题进行回答。

这篇文章结合了近期好几个利用深度学习来进行图像处理和广告点击率预估的工作。

首先就是所有的特性都利用一个嵌入层，把原始的特性转换成为数值特性。

这种思路我们在之前介绍文本处理，特别是word to的的时候，曾经进行了详细的讲解。

而在这里，不管是文本信息，形成图像向量，都根据自己信信的进行了数值特性。

这里我们要解决的一个核心问题就是是户户广广告之间匹匹配问题。

这篇论文的模型是怎么处理的？首先对所有广告的wai d及其图像进行单独的嵌入，然后对用户去去喜喜，特别是对图像的喜好进行了另外的嵌入。

然后对这些嵌的向形，形成用户的某种画象这的画画和广告信息息嵌入入，直接串联起来，形形对最终特征向向量在此之上，利用一个多层的神经网络来学习最后的点击率的可能性。

深度学习建模模中，这把多多来来不同同信息通过简单的拼接，然后利用多层神经网络来进行学习的方法，非常普遍和实用。

在这篇论文的介绍中，除了在模型上对图像进行处理以外，还有一个创新，就是提出了一个叫高级模型服务器，简称AMS的架构理念。

Ams是针对深度学习模型的大计算量而专门打造的计算体系。

总体来说，AMS的目的是把深度学习模型中的很多基础步骤进行拆分，然后把这些步骤部署到不同的服务器上，从而能够把复杂的模型拆分成细小的，可以互相学流的步骤。

从最终的实验结果上来看，基于深度学习的模型要比对数几率回归的模型好，百分之二到百分器。

三、整体上来看，利用了图像的模型要比没有利用图像的模型都要好，哪怕是线性模型也是一样的效果。

但是这个好的程度非常体系基本上可以忽略不计。

看来如何好好利用图像的信息依然是一个比较大的挑战。

我们刚才介绍的这种把其他信息和图像信息进行结合的方法。

最近在一篇文章中有一个总结，在这篇论文中，作者们提出了一种叫深度兴趣网络，或者简称DIN的架构。

Din依靠一种基本的模型架构，那就是先把所有的特性变换成为嵌入向量。

然后针对不同的特性进行画组，一些特性得以直接进入下一轮。

另一些特性经过类似图像中的池化操作，抽取到更加高级的特性之后，所有的特性都被简单串联起来。

然后再经过多层的深度神经网络的操作，DIN在这个架构的基础上提出了一种新的激活函数，叫DICE,目的是可以在不同的用户数据中灵活选择。

究竟更依赖于哪一部分数据？可以说在某种意义上，这个架性非常类似深度学习中比较火热的attention架构，其目的也是看究竟哪部分数据对于最终的预测更有效果。

从最后的实验中看，不管是内部数据还是外部公开的，例如movie lth、或或、亚马马逊的数据上，基于DIN的模型，都比线性模型和其他的深度学习模型有显著的提高。

今天我为你介绍了阿里巴巴广告点击率预估的核心算法，一起来回顾一下要点。

第一，我们讲了如何利用混合线性模型来引入非线性的因素，从而提高预测效果。

第二，我们聊了如何利用深度学习模型来对数据进行建模。

谈到了图像，在这里面起到的因素，最后给你留一个思考题。

深度学习模型在点击率预估方面的最大优势是什么？又有什么劣势呢？欢迎你给我留言，从而一起讨论。