AI内参_109_104_Word2Vec算法有哪些扩展模型

你好，我是洪亮杰。

今天我和你分享的主题是world to wake算法有哪些扩展模型？从上一期的分享开始，我们进入到文本分析的另外一个环节。

那就是介绍一个最近几年兴起的重要文本模型。

World to wake这个模型对文本挖掘、自然语言处理等很多模域等有个重要的影响。

我们讨论了world to wake模型的基本假设，主要是如何从离散的词句输入获得连续的词的表达，以及如何能够利用上下文，从而学习到词的隐含特性。

我们还聊了两个word to wake模型，SG模型和CBOW模型。

我们讨论了它们都有一些什么特性及及如何实现。

今我我们就来看一看to to work的一个文本模型。

我列举几个比较知名的word to wake扩展模型。

之前，我们首先来看看这个模型如何进行扩展。

首先我们来回忆一下world to wake的一个基本性质，那就是这是一个语言模型。

而语言模型本身其实是一个离散分布模型。

我们一起来想一想什么是语言模型？语言模型就是针对某一个词库。

在这里呢其实就是一个语言的所有单词，然后在某种语境下产生下一个单词的模型。

也就是说，语言模型是一个产生式模型比，且这个产生式模型是产生单词这一离散数据的。

既然是这样，如果我们更改这个词库变成任何的离散数据，那么word to wake这个模型依然能够输出在新词库下的离散数据。

比如，如果我们把词汇库从英语单词换成物品的下标，那world to wake就变成了一个对物品的序列进行建模的工具。

这其实就是扩展word to wake的一大思路。

那就是如何把world to wake应用到其他的离散数据上。

扩展world to wake的第二大数据，则是world to wake的另外一个离性入手上下文的语境信息。

这也是传统的主题模型，例如LDA或者PLSA所不具备的。

那么我们能不能对这个语下文进行更换，从而使得world to wake能够产生完全不一样的词向量呢？答案是肯定的这也是world to wake扩展的一个重要思路。

除此以外，还有一个重要分支，那就是很多研究者都希望往verto wake里增加更多的信息。

比如文档本身的信息、段落的信息，以及其他的辅助信息。

如何能够让world to wake对更多信息建模，也是一个重要的辅展思路。

接下来就来介绍word to wake的三个主要扩展。

我们要介绍的第一个扩展是由world to wake作者本人提出的，就是把学习词、向量的工作推广到句子和文章里。

在论文、句子和文档的分布表示里进行了详细的阐述。

这个扩展主要是解决如何能够更加自然的学习到比词更大的单位，比如段落或者文档的隐含向量。

但word to wake被发明之后，很多研究者都发现，这是一个能够把离散的词表达成连续向量的利器。

然而，一个应用场景很快就成为了大家的拦路虎，那就是world to wake,仅仅是在词一级数据上进行建模，却无法直接得到文档，记得隐含信息。

有一种做法是这样的，比如针对一个句子或者一个段落，我们就把这个句子里的词所使用的词向量加权平均，认为这个加权平均过的结果就是段落的向量了。

很明显这是一种非常不精确的处理方法。

那么这篇文章的核心则是如何能够在模型本身上进行修改，从而这以学习到比词更加高一层级单元的隐含向量。

具体的做法就是修改原始where to wake的上下文信息。

我们回忆一下SG模型和CPUW模型都有一个关键的向息，那就是利用上下文，也就是一个句子周围的词来预测这个句子或者上下文中间的一个词。

这就是where to wake能够利用上下文信息的原因。

那么这里的修改就是让这个上下文始终都有一个特殊的字符，也就是当前段落或者文章的下标。

从而这个下标所对应的隐含向量，就是我们所要学习到的段落或者文档的向量。

在这样的情况下，作者们通过实验发现学到的段落向量要比单独用加权平均的效果好得多。

我们要看的第二个扩展来自论文线，大规模信息网络嵌入就是把word wake的思想扩展到了另外一种离散数据。

图的表达上。

刚才我们提到只要是离散的数据，都有可能应用world to wake.那么图的数据建模的场景是什么呢？我们设想一个社交网络的数据，每一个用户都有可能和其他用户相连。

而两两相连的用户所组成的整个网络就是社交网络的庞大的用户信息。

很明显，如果我们把用户看作单词，那么整个社交网络就是一个单词和单词的网络。

如果我们把两个单词之间的连线看成是单词出现在一起的上下文，那么我们其实就可以利用work to wake这样的模型对社交网络所表达图进行建模。

这就是这篇文章里，作者们利用work to wake对社交网络建模的核心思想。

当然和在文档中不同，在图里面上下文这一关系其实是比较难以定义的。

因此，很多后续的工作都是关于如何更加有效的定义这上下文的关系。

最后，我们结合论文用于支持搜索中查询重写的上下文和内容感知嵌入来看另一个word to wake的扩展。

这个扩展是尝试在查询关键词和用户点击的网页之间建立上下文关系，使得world to wake模型可以学习到查询关键词以及网页的隐含向量。

这也就是我们提到的巧妙的搭建上下文关系，使得模型可以学习到离散数据的隐含表达。

你可能比较好奇，这里的离散数据是什么呢？这里有两组离散数据，第一组就是每一个查询关键词，这完全可以按照word to wake原本的定义来走。

第二组离散数据就是每一个网页。

注意，这里不是网页的内容，而是某一个网页作为一个下标。

那么从模型的角度上来说，这里我们要做的就是利用查询关键词来预测网页出现的概率。

今天为你介绍了word to wake模型扩展的一些基本思路和一些实际的案例，一起来回顾一下要点。

第一，我们聊了world to wake这个模型需要扩展的思路，比如从离散数据入手，或者从上下文入手。

最后我们讨论了三个比较经典的world to wake扩展。

最后给你留一个思考题，world to wake能否扩展到连续数据中呢？欢迎你给我留言，和我一起讨论。