机器学习40讲_03_02_贝叶斯视角下的机器学习

你好，我是王天一。

今天我和你分享的主题是贝叶斯视角下的机器学习。

在上一篇文章里，我向你介绍了比利学派对于概率统计还有机器学习的理解。

这次呢我要转换视角，看一看贝叶斯学派在解决这些问题时秉持的是什么样的思路。

还记得上次那个九死一生的例子吗？对于其中百分之九十的概率一个更直观，也更合理的解释是什么呢？是他生病之后生还的可能性。

之所以说频率主义的解释牵强，是因为没有哪个人能倒霉到三番五次的得这个病。

所以啊当多次独立重复试验不可能实现的时候，实际上就不存在从频率角度来解读概率的理论基础。

这也正是频率学派的问题。

对于所有的一锤子买卖，也就是不包含随机变量的事件来说，比利学派对于概率的解读都是不成立的。

那么为了解决这个问题呢，贝尔斯学派给出了一种更加通用的概率定义。

他把概率定义为客观上事件的可信程度，也可以说成是主观上对于事件的概任程度。

这个概率是建立在我们对事件的已有知识的基础之上。

如果说一个球迷提出明天啊皇家马德里战胜拉斯帕尔马斯的概率是百分之八十六的数，这可以怎么来理解呢？理解成他对于皇马获胜有百分之八十六这样的把握程度。

如果要是买球的话啊，他肯定就会在独胜，也就是单三省下一个重柱。

除了从置信度这个角度来理解概率之外，啊，贝叶斯学派还有另外的一个核心内容。

这个我们在上一季当中也提到过，那就是贝叶斯定理，它解决的是逆向概率的问题。

听名字就知道啊，逆向概率它和前向概率是对应的。

假如说数据啊，它由一个生成模型来给出，那么前向概率的干嘛呢？是在已知生成过程的前提之下来，计算数据的概率分布还有数字特征。

那么逆向概率呢则是在已知数据的前提之下，反过来去推导生成过程的这个位置的特性。

点击文稿，你可以看到贝叶斯定理，它的数学表达式，还有先验概率啊、似然概率啊、后验概率啊。

这几个定义抛开乱七八糟的符号的话，贝叶斯定理呢同样可以从贝叶斯概率的角度去认识。

所谓先验概率是什么呢？是指根据以往的经验和分析得到的概率，它可以看成是假设h的初始的可信程度。

那么和假设h相关的数据d呢，会作为证据出现，将数据纳入到考虑范围之后。

那么假设h的可信程度无非两种情况，你要么增强，要么削弱。

但不管是增强还是削弱，他得到的结果都是经过数据验证之后，这个假设的可信程度，这呢就是后验概率了。

贝斯定理的意义就是在于将先验概率和后验概率给它关联起来，从而呢刻画了数据对于知识还有信念的一个影响。

纳粹德国的宣传部长戈佩尔有一句名言叫，如果你说的谎言范围够大啊，并且不断的重复人民最终会开始相信的。

但更通俗的一个说法就是谎言，重复一千遍就是真理。

从贝叶斯定理的角度来看呢，这句话是有相当的科学依据的。

本来呢谎言的先验概率，也就是初始的可信度，它是接近于零的，要不然也不能叫谎言。

可是问题的关键在于说似然概率，只要宣传对象，相信宣传者不说假话。

那么这时候似然概率就是比较大的，把这个鲜验概率和似然概率带入到贝叶斯定理当中。

稍微分析一下就不难发现，只要似然概率大于零点五，那么谎言的后掩盖率就会大于先掩盖率更重要的一点是什么呢？本次宣传之后所得到的后验概率将作为下次宣传的先验概率出现。

这就相当于啊谎言的初始的可信程度提高了。

这样在后验概率和先验概率不断迭代不断更新的过程当中，后验概率将持续上升。

那么谎言也就越来越接近真理了。

把贝叶斯定理应用到统计推断当中，得到的就是贝叶斯主义的痛缉学。

那么频率统计理论的核心在于说认定待估计的参数是固定不变的常量，而用来估计的数据是随机的变量。

那么贝叶斯统计呢则恰恰相反，它将待估计的参数视为随机变量，这来估计的数据反而是确定的常数。

这就意味着讨论观测数据的概率分布是没有意义的。

所以呢贝叶斯统计的任务就是根据这些确定的观测数据，反过来去推断未知参数的这个概率分布。

相对于频率主义的这个最大自然估计啊，贝叶斯主义在参数估计当中倾向于让后验概率最大化。

所以呢它使用的就是最大后验概率估计在品率学派看来，观测数据之所以会出现，是因为它出现的概率最大。

所以呢最可能的参数就是以最大的概率来生成这一组训练数据的参数。

但是贝叶斯学脉它的最大后验估计相当于是把频率学脉当中的参数和数据这两者的角色哎给它做了个调换。

参数本身呢是随机变量啊，我们可以用先验概率去描述，它它有很多可能的取值。

那么在不同的取值之下，参数生成这一组观测数据的概率是不同的，也就是自然概率是不同的。

所以最大耗验概率推断的过程呢就是结合参数自身的分布特性，找到最可能产生观测数据的那个参数的过程。

你可以回味一下它和最大自然估计的一个差异。

那贝叶斯定理告诉我们，后验概率呢，它正比于先验概率和似然概率的乘积，这意味着什么呢？后验概率实际上就是用先验概率对似然概率做了一个加权的处理。

Pd主义它将参数看成常量，那么似然概率呢就足以描述参数和数据之间的关系。

贝叶斯主义它将参数看成变量，所以参数自身的特性也会影响到参数和数据之间的关系。

那么先验概率的作用呢，可以通过下面这个例子来说明。

这个例子来源于戴维麦卡的著作信息论推理与学习算法。

这本书呢我在第一季中啊也有过推荐这个例子，是这样昼去进行某种疾病的检查啊，假设随机变量a表示它真实的健康状况。

那么a等于一呢意味着昼生BA等于零呢，意味着昼是没病的。

让随机变量b表示昼的检查结果，b等于一表示阳性，b等于零表示阴性。

已知这个检查的准确率是百分之九十五，什么意思呢？真正的患者检查结果百分之九十五会出现阳性，没有患病的人呢检查结果百分之九十五会出现阴性。

同时呢在昼的类似人群当中，这个病的发病率是百分之一。

如果后的检查结果呈阳性的话，那么他患病的概率到底是多大呢？这个例子呢看起来比较复杂啊，左一个变量，右一个变量，左一个概率，右一个概率。

但直观理解的话，检查的准确率是百分之九十五，似乎说明了昼患病的概率就是百分之九十。

那么事实到底是不是这样呢？点击文稿，你可以看到根据贝叶斯定理计算出来的患病概率，那它到底等于多少呢？事实上昼患病的这个真正的概率也就是后验概率，他只有百分之十六。

为什么会出现这样的情况呢？对于频率学派来说之后呢，他要么生病，要么没病。

对概率的推演都是在这两个确定的前提之下分别来进行的。

这个时候呢，似然概率就足以说明问题了。

可是阳性的检查结果，它既有真的阳性，也有假的阳性，两者的比例是不一样的。

虽然说真阳性意味着基本上你就生病了，但是它出现的概率比较小，也就是鲜艳概率比较小，只有百分之一。

这样一来的话，这样性在所有的阳性结果当中依然是个少数，也就是百分之十六。

相比之下呢，假阳性的结果凭借其比较大的鲜艳概率占据了所有阳性结果当中的绝大部分这个例子就说明什么呢？说明如果抛开鲜象概率去谈论自然概率的话，其实是没有多少说服力。

可以看出，鲜艳气息在贝叶斯统计当中占据着相当重要的地位。

可问题是，鲜艳信息从哪里来了？西安信息是在使用数据之前对分析对象的已有知识。

但是在很多情况下，这种已有知识其实并不存在。

这时候呢也就不能对先验做出合理的建模。

实际上啊指定先验分布的必要性正是贝叶斯学派被频率学派的诟病之处。

因为先验分布，它不可避免的会受到主观因素的影响，这和统计学立足客观的出发点是背道而驰的。

当然这中间的哲学思辨呢，在这儿我们不去探讨。

它只需要知道即使包含某些主观的判断先验信息，它也是贝叶斯主义当中不可或缺的核心要素。

知道这一点就足够了当已有的这个知识啊，实在不足以形成鲜暗信息的时候。

那么贝叶斯主义的处理方法是什么呢？引入所谓的无信息检验，无信息检验。

他认为未知参数取到所有取值的可能性，它都是相等，也就满足均匀分布。

这个时候呢鲜暗的概率它就是一个常数，也就不会对后验概率产生影响。

这种鲜艳的话被称为平坦鲜验。

那么不难发现，在平淡先验之下，最大后验估计和最大似然估计是等效的。

不知道你还记不记得上一篇文章末尾的例子，如果从频率主义出发的话，可以用最大自然估计求出爱丽丝得分的概率。

这个概率呢它等于八分之五啊，也就对应着八次里面赢了五次。

利用这个p可以计算出bob赢得赌局的概率。

那么也就是他连得三分的概率，连得三分的概率是多少呢？一减去八分之五再做三次方，可以求证约等于零点零五啊，也就是二十分之一这样的一个概率。

但是在贝叶斯主义看来，事情并没有这么简单，因为已有的投球结果，他并不能够给出关于得分位置的可靠信息。

五比三的领先，它既可能意味着艾丽丝有较大的得分概率，也有可能意味着什么呢？ Bob,他的得分概率就高，但实在是运气不好。

所以在贝叶斯学派看来，处理这个未知参数p的方式啊，他不应该是武断的把它看成一个常数，而是应该从变量的角度来观察它，考虑它在零一这个区间范围内所有可能的取值再来计算。

在所有可能取值之下，报抱获胜的概率的数学期望。

那么这样做的好处是什么呢？就能够消除p的不确定性，对结果的影响。

点击文稿呢，你可以看到详细的计算过程，那么在这儿我就直接告诉你结果，结果就是bob反败为胜的概率是零点九零九，也就是大概十一分之一。

显然这和最大似然估计得到的结果是不一样。

但是这个结果呢反过来却符合频率主义的阐释。

如果你采用蒙特卡洛法对这个过程进行数值仿真的话，你会发现这个零点零九零九才是符合真实情况的概率。

将贝叶斯定理应用到机器学习当中，来完成模型预测，还有选择的任务，这就是贝叶斯视角之下的机器学习。

由于贝叶斯定理啊，它大量涉及各种显示变量，还有隐藏变量之间的依赖关系。

所以呢它通常用概率图模型来直观的描述。

由于贝叶斯主义将未知的参数视为随机变量。

那么参数在学习之前的不确定性就要由先验概率来描述。

学习之后的不确定性呢则由隐验概率描述。

这中间的不确定性的消除，实际上就是机器学习的作用和比率主义。

不同的是，贝斯学习它的输出不是简单的一个最优估计值，而是关于参数的这个概率分布啊，也就包含了更加完整的信息。

在预测问题当中，贝叶斯学习给出来的了也不仅仅是一个可能性最大的结果，而是将所有的结果还有它的概率以概率分布的形式给完整的呈现出来。

除了在预测当中提供更加完备的信息之外呢，贝叶斯学习在模型选择上也有它的优势。

在贝叶斯主义看来，所谓不同的模型，其实就是不同概率分布的这个参数化的表示。

那么使用的参数呢也有他们自己的鲜艳分布。

但所有模型有一个共同的特点，共同特点是什么呢？他们都能够生成训练数据集，而模型选择的任务就是从这些概率分布当中，哎，我找出一个最好的。

这里的好呢，其实定义的标准就是数据，还有模型的符合程度啊，我们也可以管它叫做可信度。

可信度啊，实际上就是一个归一化的自然函数。

那么表示的是模型生成数据的条件概率。

当这个不同复杂度的模型，它的经验风险接近的时候，就可以利用可信度来做一个模型的筛选。

既然贝叶斯主义能够提供更加的完整的信息，那为什么他没有取代频率主义成为主流呢？这就不得不说，贝叶斯方法它的缺点第一在于对未知变量的处理，大量的积分计算会增加计算的复杂度。

这从艾丽丝和鲍勃打赌的这个例子当中啊，就可以看到点击文稿，你可以看看它复杂的运算过程。

第二呢，就是这个先验分布的设定，先验分布，这个包含着一定主观性的概念，一直不太招统计学家代谢。

就是这两个原因限制的贝叶斯方法，它的广泛的应用。

今天呢我和你分享了贝叶斯学派对于概率统计还有机器学习的认识方式，包括着以下几个要点。

第一，贝叶斯学派认为概率是事件的可信程度，或者说主体对事件的信任程度。

第二，贝叶斯学派在估计参数的时候，视参数为随机变量，视数据为确定的取值。

第三，贝叶斯学派主要使用这个最大后验概率法，让参数在先验信息和给定数据之下的后验概率最大化。

第四，贝叶斯雪脉呢它对应着机器学习里面的概率图，模型可以在模型的预测，还有选择当中提供更加完整的信息。

在这两篇文章里，我和你探讨了频率主义，还有贝叶斯主义这两种解决概率问题的基本思路。

他们呢也是以后理解不同机器学习方法的基础。

虽然说两种观点各执一词，争论的不可开交，但他们更像是一枚硬币的两面，在思想方法上呢并不存在根本的对立。

同时各种来源于频率主义的统计学习方法，也可以通过贝叶斯来进行阐释。

所以说如果能够将两种方法融会贯通的话，对理解机器学习是非常有好处的。

最后呢再回到这个艾丽丝和鲍b这个赌局的例子。

基于贝斯主义的方法，他得到了符合频率学派解释的结果。

那么基于频率主义的最大自然估计呢反而做出了错误的判断。

那么你是怎么看待匹率学派的错误的呢？欢迎发表你的观点。