AI内参_106_101_基础文本分析模型之二概率隐语义分析

你好，我是洪亮杰。

今天我和你分享的主题是基础文本分析模型之二概率隐语义分析。

在上一篇的分享里，我们展开了文本分析这个方向，讨论了隐语义分析。

这个模型。

隐语义分析的核心是基于矩阵分解的代数方法，这种方法的好处自然就能够直接利用代数计算方法对文本进行分析，而短板则是无法很好的解释结果，而解释性是很多概率模型的一大优势。

今此自然就有很多研究者想到是否能够把概率的语言移植到隐语义分析上。

今天我们就来分析概率隐语义分析的一些基本内容概率，隐语义分析有时候又被简称为PLSA.上周，我们介绍过隐语义分析的核心内想。

首先来简要回顾一下，隐语义分析的核心，其实就是用无监督的方法从文本中提取特性，而这些特性可能会对原来文本的生存关系有着更好的解释。

简单来说，隐语义分析就是利用了矩阵分解的概念，从而对词文档矩阵进行分解。

既然概率引语义分析是利用概率的语言，那么我们就来看看概率引语义分析是如何对文档进行建模的。

首先，PLSA是对文档和里面单词的联合分布进行建模。

这个文档和单词的联合分布，其实就是类似隐语义分析中的那个文档和单词的矩阵。

只不过在PLSA里，我们不是直接对数据进行建模，而是认为数据是从某个分布中产生的结果。

那么对于这个联合分布该如何建模呢？一种方法就是对这个联合分布直接进行建模。

但是这往往会遇到数据不足的情况，或者无法找到一个合适的已知参数的分布，来直接描述我们需要建模的这个联合分布。

另外一种经常使用的方法，就而简化这个联合分布，从而找到我们可以建模的形式。

那么如何简化联合分布呢？一个重要的思路就是把一个联合分布进行分解，一种分解分布的方法就是假定一些隐含的变量，然后数据又是从这些隐含变量中产生而来。

在我们现在的情况里，我们从文档和单词的联合分布入手，可以做出这样的假设。

这个文档和单词的联合分布式，我们首先从文档出发，产生了当前所需要的主题，比如金融运动等。

然后再从主题出发，产生相应的单词。

很明显这里的主题是我们并不知道的，隐含变量是需要我们从数据中估计出来的这就是PLSA模型的基本假设。

Plsa还有一个等价的模型描述，也是对文档单词联合分布的另外一种分解。

那就是我们首先假设有一个主题的先验概率，然后根据这个主题的分布产生了一个文档，同时也产生了这个文档里面的所有单词。

这种假设观点非常类似。

我们之前在介绍高级的主题模型时谈到的下游方法。

这里文档变量和单词变量都成了隐变量，也就是主题变量的下游变量。

通过一定的代数变形，我们可以得到这两种方法，其实就是等价的。

如果我们按照第一种分解方法来认识文档单词分布，有一种更加通俗的解释。

我们其实是给每一个单词都联系了一个未知的主题变量，使得主题变量是从一个文档级别的主题分布得来的。

实际上这是一个多项分布。

然后根据这个主题变量，我们又从相应的一个语言模型中抽取出了当前的单词，这又是另外的一个多项分布。

如果从这个角度来看待这个模型，你会发现PLSA其实和LDA非常相似。

实际上，从模型的根本特征上来说，PLSA和LDA都是对文档单词分布的一种分解，或者叫做产项解释。

只不过LDA针对刚才我们所说的两个多项分布，一个是每个文档的主题分布。

另外一个是k个语言模型都外加了先验分布，使得整个模型更加符合贝叶斯统计的观点。

然而，在建模的核心思想上，p LSA和LDA是一样的。

关于如何学习PLSA这样的隐变量模型，我将会在后面的分享中和你详细讨论。

今天我为你介绍了基于概率模型的隐语义模型的相关知识，一起来回顾一下要点。

第一，我们简要回顾了隐语义模型的重要性。

第二，我们讨论了基于概率语言的隐语义模型的核心思想，以及PLSA和LDA的联系和区别。

第后给你留一个思考题，PLSA的建模流程有没有什么局限性？欢迎你给我留言，和我一起讨论。