-->

机器学习40讲_33_31_建模连续分布高斯网络

你好,我是王天一。

今天我和你分享的主题是建模连续分布高斯网络,无论是贝叶斯网络还是马尔可夫随机场定义的变量呢都服从取值有限的离散分布,每个变量只能取到油线个离散的值。

这样呢变量之间的关系就可以用有限维度的这个概率的矩阵来表示。

如果说将随机变量的范围从离散型扩展到连续型的话,这时变量可能的取值就会有无穷多个。

它们之间的依赖关系呢就不能再用表格的形式来表示了,需要重新定义概率图。

模型当中的相互作用,还有条件独立性考虑最简单的情形,也就是当节点所表示的随机变量都服从高斯分布的时候,由这些高斯型连续变量所构成的概率图。

模型就是高斯网络。

如果多个服从一维高斯分布的随机变量构成一个整体,那它们的联合分布就是多元高斯分布。

点击文稿,你可以看到多元高斯分布的表达式。

在这里面呢,缪是这组随机变量的均值向量。

西格玛是这一组随机变量的协方差矩阵,西格玛左右各加一个竖杠,表示的就是它的行列式的取值。

斜方差矩阵呢这是对称的正定矩阵,它表示了不同变量之间的关联。

如果说两个变量线性无关的话,那么它斜方差矩阵当中对应的这个元素就应该等于零。

这意味着什么呢?意味着这两个变量满足边际的独立性。

如果说所有变量都线性无关的话,这时的协方差矩阵就会退化为一个对角矩阵啊,只在对角线的方向上有非零的取值。

这些非零的取值呢就是每一个随机变量,它的方差斜方差矩阵的逆矩阵啊被称为信息矩阵,信息矩阵和均值向量的乘积叫做势向量。

那引入信息矩阵目的何在呢?在于定义条件、独立性、条件独立性。

它和边际独立性不同,它不能够直接在斜方差矩阵当中体现出来啊,必须通过信息矩阵加以观察。

如果说斜方差矩阵当中的一个元素等于零的话,那我们是不能由此判定这两者满足条件独立性。

边际独立性满足,但是条件独立性不一定是满足,这时呢就要观察信息矩阵。

如果信息矩阵当中这个元素等于零,那就说明对应的两个变量在给定其他变量的前提之下啊,条件独立。

比方说这个信息矩阵j它的第一行、第三列j一三这个元素等于零。

那就意味着在其他变量固定的情况下,x一和x三这两个变量是条件独立的。

在高斯分布的基础上,可以进一步的来定义这个高斯线性模型。

高斯线性模型,它指的是一个随机变量,可以表示为一组随机变量的线性组合。

这个随机变量本身的不确定性呢,又可以用高斯分布来建模,点击文稿。

你可以看到这个关系的表达式。

这种关系呢其实和原始的线性回归的假设是完全一致的啊,只不过里面的自变量由常量替换成了高斯型的变量。

把这种关系放到概率图当中呢,所有的自变量XI都可以看成是因变量y的负节点。

它们一块儿呢就构成了一个汇联的结构。

那么从概率的角度看,在给定这些父节点之后啊,子节点外它的条件概率就会服从高斯分布,它均值呢是XI,它的线性组合方差呢则是噪声一步使用的方差。

当然这里呢我们考虑的是所有的自变量都是固定的,而非随机变量的情况。

如果说所有的负节点都共同服从均值为缪啊斜方差矩阵为西格玛这一个多维高斯分布的话,那么可以证明随机变量y啊,也就是这个子节点外,它也是高斯随机变量,它的均值和方差,还有协方差呢点击文稿你都可以看到它的表达式。

那这样的结论告诉我们,高斯线性模型实际上就定义出来一个高斯的贝叶斯网络。

整个概率图它所表示的联合分布就是一个大的啊多元的高斯分布。

其斯贝叶斯网络的表示呢,可以通过下面这个例子来解释这个例子来自于概率图模型。

这本教材的例七点三。

如果说一个线性高斯网络具有顺联结构啊,x一到x二到x三,其中x一的概率密度呢是高斯分布,它均值为一,方差为四。

那么已知x一的时候,x二的条件概率密度也是高速分布,它的均值呢等于零点五倍的。

X一减去三点五,方差呢也等于四。

同时在已知x二的时候,x三的条件概率密读也是高斯分布,它的均值是负x二,加一,方差等于三。

那么给定了这些条件概率之后啊,我们要求解这整个网络所表示的这个联合的分布。

在高斯形式已经确定的前提之下啊,求解联合分布实际上就是求解所有变量的均值向量,还有这个协方差矩阵。

这样的话这个高维的高斯分布也就确定。

由于x二它等于零点五倍的x一减去三点五。

那么将x一的均值为一带入这个线性关系啊,就容易求出x二的均值,等于负三。

同理呢可以求出x三的均值,它等于四求完了均值。

再来看协方差协方差矩阵的对称性决定了对于三维变量来说,计算协方差矩阵只需要确定六个元素啊,这六个元素位于矩阵的这个上三角方向或者下三角方向一样,x一的方差西格马一一等于四是已知的。

那么这一部分方差呢将会以线性系数为比例体现在x二当中和x二。

它自身的不确定度共同构成这个随机变量。

它完整的方差根据这样的思想可以计算出啊西格马二二,也就是x二的方差,它等于五将x二的方差带入到x三的线性关系当中,又可以计算出西格玛三三等于八。

这三个方差定义了变量,自身的不确定性是斜方差矩阵当中的对角线上的元素。

确定了对角线元素之后呢,下一步就要确定非对角线元素,也就是不同变量之间的相关性。

由于x二这个变量只取决于x一,那么它的关联强度呢由线性系数来确定,所以两者之间的线方差就等于线性系数和x一。

方差的乘积计算出来等于多少呢?等于二。

这个数字的含义在于说我用x一的变化对x二的变化所造成的一个影响。

你x一变动会导致x二的变动。

这个变动呢大小呢就可以用二这个指标来界定,同样可以求出x二和x三之间的斜方差等于负五。

在这个瞬联结构当中啊,x一和x三之间并不存在直接的作用,而是以x二作为媒介和中转。

X一对x三的作用实际上可以分成两个阶段。

第一阶段呢x一的变化首先影响到x二。

第二阶段呢x二的变化继续的影响。

X三在协方差的计算当中,第一个阶段体现为x一和x二之间的协方差。

第二个阶段呢则体现为x二和x三之间线性系数的加权作用,两者相乘,形成x一对x三作用的一个整体。

那么根据这个关系,我可以计算出来,西格马一三就等于西格马一二乘以负一等于负二。

所以由此呢就可以写出联合分布整体的均值向量,还有斜方差矩阵啊,它们都已经被确定下来的。

关于这个例子呢,还要强调一点,由于协方差矩阵当中所有的元素都不为零,说明呢这些变量两两之间都不是边际独立的啊,重复一遍都不是边际独立的。

但是瞬联结构告诉我们,当x二确定之后,x一和x三是条件独立。

所以呢它的信息矩阵当中会有两个零元素。

这说明呢对于这个例子而言,当我用图结构来表示,它的手表示这同一个联合分布只需要更少的参数,就能把它完全确定下来。

但是淮南为局淮北为止图结构的优势也可能变成劣势啊。

想象一下汇联结构x一、x二、x三这个x一和x三共同汇到x二当中去。

那么汇联结构当中呢,不存在条件独立的节点,所以联合分布的信息矩阵所有的元素都是非零的。

但是因为x一和x三啊它两者互不影响,所以呢协方差矩阵当中反倒存在着两个零元素。

在此基础上,如果说我再给节点x一和x三赋予一个共同的负节点x四,让这三者形成一个分离结构的话,那么整个网络当中就既没有条件独立,也没有边际独立。

所管是协方差矩阵还是信息矩阵,就都不会出现非零的元素。

把多元高斯分布嵌入到无向的这个马尔可夫飞机场当中啊,得到的就是高斯马尔可夫飞机场。

在处理这个高斯随机场的时候,先要对多元高斯分布的概率密度做一些处理。

具体的做法是,将指柱项当中斜方差矩阵的逆矩阵格siga的逆替换为信息矩阵啊,并且把它展开。

由于均值向量和信息矩阵都是常量啊,那么将它们去掉呢,就可以得到概率密度的一个正比的关系。

点击文稿,你可以看到高斯分布它的一个信息形式。

由于式子当中的x啊是一个向量,所以展开之后的结果呢会包含着两种多项式的成分。

一种成分呢是单个变量XI的函数。

另一种成分呢则会涉及到两个变量XI和XJ之间的一个乘积。

在高斯随机场当中呢,这两个不同的成分它具有不同的意义,只和单个变量相关的成分可以看成是节点的视函数。

同时设计两个变量的成分呢,则可以看成是连接这两个节点的边的视函数啊,一个表示单个节点,一个表示两个节点之间形成的边。

如果说信息矩阵的元素JIJ它等于零的话,那么这个元素所对应的边式也等于零,说明什么呢?说明这两个节点之间并没有连接的变。

需要说明的一点是,在前一篇对马尔可夫随机场的介绍当中啊,我提到了边式,但是并没有涉及到节点式的概念,为什么呢?因为节点式本身它并不是一个通用的概念,它只存在于具有成对马阿可夫性的网络之中。

点击文稿,你可以看到一个典型的成对马阿可夫随机场,每个节点呢都和它所有的非邻接节点条件独立。

那么在信息矩阵当中,这些条件独立的节点组合所对应的元素就等于零多元高斯分布,它定义的就是成对的。

马尔可夫随机场其中的每个式函数呢都具有二次型的这种形式。

反过来,由于任何合法的高斯分布都具有正定的信息矩阵。

所以说如果一个成对儿随机场能够改写成多元高斯分布的话,那它的视函数的系数所形成的矩阵也必须要满足正定的条件。

对连续分布进行建模呢能够大大的拓展概率图模型。

它的应用范围。

毕竟现实当中大量的观测结果都是连续变化。

虽说高斯分布它并不适用于所有的连续变量,但是良好的数学性质还有便于计算的特点,让它成为理想条件下近似建模的一个首选。

如果说一个概率图模型当中,随机变量它既有离散型,也有连续性的话。

这样的网络呢就是混合网络,混合网络让人头疼的一个问题是什么呢?同一个节点的父节点可能存在不同的类型,既有连续分布的节点,也有离散分布的节点。

而在处理这些父节点不同的子节点的时候呢,就需要根据情况来分类讨论。

如果这个子节点本身啊,它也是连续分布的话,那么问题就简单了。

由于离散分布的父节点,它取值的组合是由限个,这样一来呢就可以对每一种可能的取值都为这个子节点定义出来。

一组线性系数,也就是将离散节点的信息编码到这一组线性系数当中。

这样一来,呢子节点就可以表示成为连续父节点一个线性的组合。

那么这里面的线性系数呢是取决于离散父节点这种模型,我们把它叫做条件线性模型。

它本质上呢是一组不同参数的高斯分布所形成的这个混合模型。

每个分布的权重呢取决于这组参数出现的一个概率。

如果说一个离散的子节点具有连续父节点的时候呢,这种情况会比上面稍微复杂一点点啊,但也不是很复杂。

最简单的方法是进行阈值建模。

当连续变量取值大于阈值的时候啊,我让它输出为一小于阈值的时候呢,输出为零。

那么更精细的一种方式呢是借鉴逻辑回归或者soft max啊,这种多输出的逻辑,回归的思想,计算离散的子节点。

关于连续父节点的条件概率,然后呢输出条件概率最大的一个结果。

今天我和你分享的概率图。

模型当中对连续性随机变量的建模与表示,包含着以下四个要点。

第一,高斯网络采用高斯线性模型来建模连续变量,它的数字特征为均值向量和前方差矩阵。

第二,高斯贝叶斯网络利用多元高斯分布生成独立图,由此计算网络当中的条件概率。

第三,高斯马尔可夫飞机场具有成对马尔可夫性,通过高斯分布可以确定节点式,还有边式。

第四,混合网络是同时具有离散型节点和连续型节点的概率图模型。

在现实生活当中,自然界客观存在的属性通常是连续分布,而人为定义出来的属性呢则通常是离散。

那么你能想象出有哪些离散分布和连续分布共存的这样的应用场景呢?欢迎分享你的观点。