-->

机器学习40讲_38_36_确定近似推断变分贝叶斯

你好,我是王天一。

今天我和你分享的主题是确定近似推断变分贝叶斯岁数,精确推断能够准确的计算结果,但它的应用范围呢却严重的受限。

当网络的规模较大、节点较多的时候,大量复杂的因子会严重削弱精确推断的可行性,这类方法在原则上依然可行,却难以解决实际的问题。

另一方面,如果模型当中同时存在着演变量和未知参数的时候,复杂的隐藏状态空间也会让精确的数值计算变得难以实现。

要在这样的模型上实现推断的话,就不得不借助于近似推断。

近似推断是在精确性和计算资源两者之间的折中。

如果说具有无限的计算资源的话,精确推断也不是说不能实现,但是近似推断它可以在有限的时间内解决问题,而不是画一张水月镜花的大饼。

从实现方式上看,近似推断可以分为确定性、近似和随机性近似。

这样两类,今天呢我们就先来聊一聊确定性的近似。

确定性近似属于解析近似的范畴,绝大多数贝叶斯推断任务最终都可以归结到后验概率的计算。

算出来的后验概率呢在理想情况下应该以解析式的形式出现。

但是当这个函数复杂到没有办法用解析式来表达的时候,那一个直观的思路就是找到另一个形式,更加简洁的函数。

用这个简单函数,按照一定规则来尽可能的逼近复杂的函数。

这种方法呢就是确定性的近似生活当中,我们再熟悉不过的这个四舍五入,其实就是一类最简单的确定性近似确定。

星期四的典型代表是辩分。

贝叶斯推断他解决的问题是什么呢?是对演变量y关于已知的输入x后验概率的进析近似的方式是利用一个最优的近似概率分布QY来逼近原始的后验概率。

Py杠x需要注意的是什么呢?这里的QI表示的是隐变量y在输入x这一组特定的数据之上的分布,它并不会将x视为可变的参量。

所以它的自变量呢也就不会包含x从数学上看,如果假定模型的参数阿尔法是固定不变的,那么点击文稿,你可以看到隐变量y关于输入数据x的后验概率,后验概率能够将数据和模型联系起来。

但是隐变量这个不可观察的特性,使得分母上的积分式变得无法计算,精确推断呢也就不可能了。

期望最大化算法也叫EM.算法虽然能够用于求解演变量,但它做的是什么呢?是让输出结果最大的那个演变量的取值来代替原本的一个积分的运算。

他虽然能够简化求解,却也失去了贝叶斯推断边际划这一个精髓的操作。

所以说,要在保留边际化操作,也就是保留贝叶斯特征的基础上做出近似,就得借助于变分法。

变分法的出发点是观测结果的概率分布,也就是输入的概率PX.它的对数可以利用条件概率的性质来加以改写。

点击文档,你可以看到改写的结果。

这里面呢会涉及到对于求和项的一个对数的运算。

我们对它利用jesson不等式可以把它简化为对于一个对数项的求和啊,把求和的对数转化为对数的求和点击文稿。

你可以看到应用jesthon不等式之后得到的结果,在式子当中右侧的结果被称为变分下界,也叫做证据下界,它是小于或者等于等式左侧的输入数据的对数。

那么用对数概率减去变分下界,就可以得到我的预测分布。

Qy和真实的后验PY杠x两者之间的KL散度。

这结果说明什么呢?说明变分下界可以用来表示演变量的预测分布和根据观测结果所推导出来的真实分布,两者到底相差多少,也就是近似的接近程度。

两个帆布之间的变分价就越大,它们之间KL散度就会越小,帆布的特性呢也就越接近提升。

变温下季需要两手抓,一方面要尽可能的增加PX,因为等式的左侧是不小于等式右侧的,那么变分下界的增加就意味着左侧的log PX它得增加的更多。

那么这个增加PX的过程呢,被称为近似学习。

另一方面,在PX确定之后,还需要找到在这个确定的PX上,让变分下界最大化的这个隐变量的分布,也就是QI.这个过程呢被称为近似的推断。

对变分下界做出优化,需要引入平均长理论。

这种方法平均长理论呢与其说是一种方法,不如说是一种思想,它将复杂的整体模型简化为若干个相互独立的局部模型的组合在变分贝叶斯里呢平均长理论将多变量的演变量向量y分解成一系列独立的因子。

Yiy一y二一直到YI,那么这个多变量的分布QI就被因子化,成为所有因子分布的一个乘积。

不难看出呢,这和前面介绍过的普苏贝斯的思想不谋而合,只不过普苏贝叶斯拆分的是属性,而平均场呢拆分的是因子,将平均长的因子化。

结果回过头带入到变分下界的表达式当中,就可以将高维的QI拆解成低维概率分布乘积的形式,并且给出呢每个低维概率分布最优解的表达式。

那么点击文稿,你可以看到这个表达式。

平时常理论在简化计算的时候,它是假设着不同的演变量之间是相互无关的。

但实际情况是什么呢?演变量之间啊应该是存在着一定的依赖关系。

所以他在简化运算的同时呢,必然会付出精确性的代价。

从宏观层面看,变分法它是将推断问题改造成了一个泛含的优化问题。

这呢也是变分这个词的来源。

优化的目的是用简单的容易计算的分布QY来拟合复杂的不容易计算的后验分布PY杠x.那么优化的对象呢就是这个变分的下界将变分推断应用在贝叶斯网络里可以实现自动化的推理,相应的方法被称为变分。

消息传播对贝叶斯网络当中的节点应用变分。

贝叶斯推断的时候,只需要关注这个节点的马尔可夫坦,也就是它的父节点子节点,还有共负的节点。

在计算一个节点,HJ所对应的低维概率分布的是这些马尔肯夫坦里的节点和HJ之间的条件概率都会作为变量出现,也就是他们的变化会影响到这个HJ的条件概率,而不在马尔可夫坦当中。

其他节点的作用就简单的体现为一个常数,它变不变都不会产生影响。

出于简化计算的考虑,变分消息传播算法。

假设待计算节点HJ关于它父节点的条件,概率分布属于指数分布足,并且呢还是副节点分布的共荷经验。

这样的模型呢给它起一个名字,叫做共轭的指数模型。

它的好处是什么呢?首先,指数分布足具有计算上的便利,它的对数形式是可计算的,状态呢也完全可以由自然参数来表示。

其次,鲜艳分布的共和特性同样有助于简化运算。

它可以保证后验分布和先按分布具有相同的形式。

区别呢只是在于参数的不同,有马尔可夫坦和顾客指数模型作为基础,就可以对贝叶斯网络进行消息传播。

虽说变分消息传播,它的具体机制比较复杂,但是基本原则呢无外乎两条。

第一,父节点要向子节点传播自身分布,充分统计量的数学期望注意啊,是充分统计量的一个数学期望。

第二子节点要向父节点传播,自身分布的自然参数都是和这个指数分布足相关的参量。

在子节点向父节点传播消息之前呢,他首先要接受来自共父节点的信息,这是由汇联结构中变量依赖性所决定的。

接收到所有来自父节点和子节点的消息之后,目标节点要用这些消息来更新自己的自然参数,进而呢更新后验的分布。

在这一轮一轮迭代的过程当中,变分的分布就会逐渐的接近这个最优的值。

不难看出,这和致敬传播的思路也是异曲同工。

同样是处理未知参数和演变量的方法,变芬贝叶斯和后面要介绍的EM算法之间存在着千丝万缕的联系。

下面的这个表格来自于约翰霍普金斯大学自然语言处理专家jason艾森特教授的讲义变分推断的高层次解释。

他把变分法和EM算法纳入到了统一的框架之下。

点击文稿,你可以看到描述的表格,表格的第一行给出了最简单的情息。

当这个模型的超参数和参数全部给定的情况下,任务就相当于用确定的模型来估计这个演变量。

这种对于演变量的预测就是典型的推断问题。

那么具体向后向算法,如果对前项后项算法进行近似处理的话,那么就可以进一步得到变分推断。

如果说我放弃对于这个演变量,它完整分布的求解,而是直接给出最可能的状态的话。

这时的推断,问题就被简化,成为了解码问题。

解码问题最典型的方法呢就非基于最大后验的维特比密码莫属。

如果把问题复杂化一些,将参数设定为位置的变量,那推断问题就变成了估计模型参数的学习问题。

关于学习问题呢,我们也有专门的机讲来对它做出详细的阐述。

出于运算不当性的考虑,处理未置参数的时候,可以直接找到让输出后验概率最大化的那一组参数,也就是找到最优的一组参数,这就是EM算法所做的事情。

如果将EM算法当中参数的最大化替换为标准,贝叶斯推断里的边际化操作,得到的结果就是本讲的主题变分贝叶斯。

这呢也体现出了变分贝叶斯和EM之间的区别,EM中应用了演变量的概率分布。

但是对待估计的参数呢只是做一个点估计变分,贝叶斯则会一视同仁。

对于两类非观测变量都用一个分布来加以描述,最复杂的情形发生在连超参数都无法确定的是解决这类问题呢就需要借助经验贝叶斯方法。

所谓经验毕业词方法呢,其实就是在统计学习模块当中啊,介绍的这个毕叶词方法,也就是引入超鲜验来构造层次模型的做法啊,我给这个超参数再引入一个鲜验经验。

贝叶斯呢会计算出级别最高的超线线分布的参数。

它最可能的取值啊也就是给出一个点估计,而不是对它的分布来进行积分。

这让他呢和全贝叶斯的途径略略的有所区别。

这种方法也可以用在计算演变量的货验分布里。

如果使用变分推断来进行估计的话,这种算法就是变分的EM方法。

在PMC three啊,这个专门用于贝斯机器学习的派森库当中,变分推断,可以通过ADVI类来实现。

这个ABBI的全称呢是自动微分,变分对断,是一种基于平行长理论的高效算法,它是把变分的后验分布初始化为一个球面的高斯分布。

那么不同的参数的后验呢彼此无关。

再通过训练数据,把这个初始的分布拟合到真实的后验之上,将变分推断运用到前面介绍过的简单线性回归里,啊,可以模拟出线性系数和偏置的分布。

但这里要说明的一点是什么呢?受我自己计算机性能的限制啊,这个代码里的n呢设定的比较小,但实际上n越大推断的结果才能够越精确。

今天我和你分享了变分贝叶斯推断的基本原理,以及它和EM算法之间的关联,包括以下四个要点,第一,变分贝叶斯推断是基于确定性近似的推断方法。

第二,变分贝叶斯用简单的近似分布来拟合真实的后眼分布,并利用平均场分解,简化,变分下界的优化。

第三,变分消息传播可以在贝叶斯网络上实现变分推断。

第四,变分贝叶斯和EM算法都是对隐变量的处理,可以从统一的角度加以分析,发表于美国统计联合会会刊第十二卷第五百一十八期上的论文。

从统计学看,辩分推断是一篇很好的综述。

文中呢是以贝斯高斯混合模型为例,介绍了变分推断的具体应用。

那么你可以研究一下这个实例,来加深对变分推断的一个理解。