AI内参_58_056_基于深度学习的搜索算法卷积结构下的隐含语义模型

你好，我是洪亮杰。

今天我和你分享的主题是基于深度学习的搜索算法卷积结构下的隐含语义模型。

这个星期也是我们整个搜索领域分享的最后一周内容，来看一些搜索算法的前沿思考，特别是深度学习对搜索领域的影响。

周一，我们分享了一篇较早利用深度学习技术来进行搜索建模的论文，论文提出如何使用前馈神经网络来对查询关键字和文档进行信息提取，从而能够学习更有意义的语义信息。

今天我们来看一篇文章，信息检索中结合卷积池化结构的隐含语义模型，可以说这是我们周一分享论文的一个后续工作。

这篇论文发表在第二十三届世界信息和知识管理大会CIKM二零一四上这篇论文的主要目的探讨搜度学习中的卷积神经网络能否应用在搜索中并取得较好的效果。

下面我们先来了解一下这篇论文作者群的信息。

第一，作者，沈叶龙是微软研究院的一名资深研究员。

第二，作者，何晓东是微软研究院深度学习组的主任、研究员兼经理，发表过一百多篇学术论文。

在人工智能领域，特别是近年来在深度学习领域有很突出的贡献。

第三作者，高剑锋是一名长期在微软研究院工作的研究员和经理。

第四，作者，邓丽是微软研究院的人工智能学者，曾担任微软的首席人工智能科学家，并且领导深度学习中心。

二零一七年五月，邓丽离开微软，加入了city戴ir,美国著名的金融机构担任首席人工智能官的职位。

我后一位作者格雷古瓦梅尼尔是来自蒙特利尔大学的一名博士学生。

这篇论文自二零一四年发表后，已被引用一百八十多次，是探讨深度学习在搜索研究院工作的主要论文之一。

我们周一介绍的深度结构化语音模型，其主要思想是希望能够利用前度神经网络来对查询关键字和文档进行信息提取。

这个模型有一个很明显的问题，那就是在第一步对查询关键字或文档及特征提取时所形成的词向量是忽略了文本原本的顺序信息的，也就是依然是一个词带模型。

假设这显然是丢失了很多信息的。

当然，我们今天要分享的卷积结构下的隐含语义模型，也并不是第一个想要解决这个问题的模型。

在经典的信息解索领域的研究中，已经有不少这方面的尝试了。

那么对于深度学习来说又有什么优势呢？近些年来，深度学习模型兴起的一个重要动力，就是在图像音频视频领域的技术突破，而这些突破离不开一个重要的基础模型。

卷积神经网络的关熟这个模型对有空间位置、结构性的数据，比如图像中每一个像素有较强的建模能力，成为了探索结构信息建模的一个利器。

那么能不能把这些领域中已经成熟的经验借鉴到搜索领域了？那么把文本的词与词句子与句子之间的关系，那作是一种空间位置关系的话。

那么从假设上来看，就很符合卷积神经网络模型的基本设置。

接接下来我们就来看看这个模型具体是怎么应用到搜索中的。

首先，模型对查询关键字或者文档的文字进行移动窗口式的扫描。

这第一步就和之前的深度结构化语义模型有了本质区别。

然后模型进一步把移动窗口下的词转换成为字母级别的表征。

向量。

这个步骤之后，模型采用了卷积层来提取空间位置的特征，也是把数据的维度大幅度降低。

卷积层之后就是基本的池化层。

这里的模型采用了最大池化，也就是从多个卷积层的结果中每一个层对应元素中的最大元素。

在池化层之后就是进行一个全部展开的语义层。

更加直白的说，整个模型就是希望先从原始的文字信息中利用保留顺序的一个移动窗口，提取最基本的特征，然后利用卷积神经网络的标配卷积层、加池化层来提取空间位置信息，然后利用一个全部的展开层来学习下一步的系数。

卷积层主要抓住的是单词这个级别的特征，而池化层则是希望抓住句子这个层面的语义信息。

最后利用句子这个层面的语义信息，形成整个文字的内在语义表达。

这个模型是如何被训练出来的呢？事实上，可以说整个模型的训练过程和我们周一分享的深度结构化语义模型的训练过程一模一样。

首先同样是利用用户的点击信息，也就是针对某一个查询关键字有哪些文档被点击过作为正例数据，其他文档作为复利数据。

然后把整个建模问题看作是一个多类分类问题。

这样就可以利用标签信息对整个模型进行学习和深度结构化语义模型一样，隐含语义模型也仅仅使用了查询关键字和文档之间的文字信息。

所以也只能和文字型的排序算法进行比较。

最终，文章在数据集上采用了bean的搜索数据，有一万两千多的查询关键字，以及每个查询关键字所对应的七十四个文档，每个文档又有四级的相关标签，用来计算NDCG.这样的指标数据虽然和之前一篇不完全一样，但是在数量级上是差不多的。

在这篇文章里，作者们也比较了一系列的方法，比如TFIDFBM二五以及传统的PLSA和LDA.简单来说，隐含语义模型在最后的比较中取得了不错的结果。

Ndcg在第十位的表现是接近零点四五，而之前提出的深度结构化语义模型达到了差不多零点四四。

虽然利用卷积的效果更好一些，但是差距并不大。

在这个数据集上，传统方法要差很多，比如BM二五的表现仅有零点三八左右，而传统的PLSA和LDA也只有零点四零左右的表现。

应该说在这篇文章中展示出来的效果还是有比较大的差距的。

今天我为你讲了卷积结构下的隐含语义模型的一些基本原理。

这个模型是利用深度学习技术对搜索算法进行改进的。

另一个很有价值的尝试，揭开了用深度学习模型，特别是用在图像处理中非常成功的卷积神经网络技术来表征查询关键字和文档会达到的效果。

一起来回顾一下要点。

最后，我们简要介绍了隐含语义模型提出的历史。

第二，我们详细介绍了隐含语义模型的核心思路以及实验结果。

最后给你留一个思考题，为什么顺序信息并没有像我们想象中的那样，给文档搜索提升带来很大的效果呢？有没有什么解释？一、迎你给我留言，和我一起讨论。

最后预告一个小活动，本周六，也就是一月十三号晚上八点三十分，我会在即刻时间做一场直播，欢迎你参加。

主题是人工智能。

二十问，如果你有想交流的问题，欢迎给我留言，我们周六直播见。