-->

机器学习40讲_02_01_频率视角下的机器学习

你好,我是王天一。

今天我和你分享的主题是频率视角下的机器学习。

在人工智能基础课当中,我曾经提到概率。

这个基本概念呢存在着两种解读方式。

这两种不同的解读方式分别对应着概率的频率学派,还有贝尔斯学派。

而解读方式的不同呢,也延伸到了以概率为基础的其他学科,尤其是机器学习当中。

机器学习领域有一位元老叫汤姆米切尔,他给机器学习下了一个定义。

他说机器学习呀就是一门研究,通过计算的手段利用经验来改善系统自身性能的学科。

现如今呢几乎所有的经验都以数据的形式出现,所以机器学习的任务也就变成了基于已知数据构造概率模型,反过来再运用概率模型对未知数据进行预测和分析。

这么一来的话,关于概率的不同认识就肯定会影响到对于模型的构建,还有解释。

正是在概率的使用上,匹利学派和贝叶斯学派。

他们的思路呈现出了天壤之别。

这种思维方式的差异,也让两派的拥护者势同水火,都视另一方为异端邪说。

也正是出于这个原因,在专栏的前两篇文章里,我将首先和你理清频率学派和贝叶斯学派对概率的不同观点。

这呢会为接下来从不同的角度理解机器学习的各种算法打下一个坚实的基础。

下面呢先轻松一下,给你讲一个笑话。

当然这个效果不是白讲,他不经意间对频率学派和贝叶斯学脉的区别给出了一个形象的解释说,有一位病人来找医生看病,医生检查之后对他说你这个病啊说得上是九死一生,但好在哪儿呢?多亏你到我这儿来看。

不瞒你说,在你之前我已经看了九个同样病的患者,结果他们都死了。

那你这第十个就肯定能看好了,妥妥的没问题。

如果这个病人脑子没事儿的话,那肯定就从这糊涂医生那跑了。

显然这个医生在看待概率的时候,秉持的是频率主义的观念,但呢却是个蹩脚的频率主义者。

之所以说他是频率主义者,是因为他对九死一生的理解,就是十次手术九次失败,一次成功。

说他蹩脚呢则是因为他不懂频率学派的基础。

这区区九个倒霉的病人,就让他自以为掌握了生死的密码。

归根到底啊,频率学派口中的概率呢,它表示的是事件发生频率的极限制,它只有在无限次的独立重复试验之下,才有绝对的精确的意义。

在上面这个例子当中,如果说非要从频率的角度来解释九死一生的话,这个百分之十的概率呢它只在样本容量是无穷大的时候才有意义。

从这个角度来看,即使说这个九死一生的概率真的存在,那他也不能够确保这第十个病人的康复。

在频率学派眼中,当重复试验的次数趋近于无穷大的时候呢,这个事件发生的频率呢就会收敛到真实的概率之上。

这种观点啊背后其实暗含了一个假设,什么呢?概率它是个确定的值,不会受到单次观察结果的影响。

想象一下,将一枚均匀的硬币给它抛掷十次,那么结果啊可能这十次都是正面,也可能这十字都是反面写成比率的话,就对应着百分之零和百分之百。

这两个极端。

这两个极端呢表示了最大限度的一个波动。

但是如果将抛掷次数我增加到一百次的话,出现正面的次数依然会发生变化。

但是波动范围呢更可能会收缩到百分之四十到百分之六十这样一个区间之内啊,我一百次都是正面或者一百次都是反面,这种情况出现的可能性,那就微乎其微了。

如果再将抛掷次数啊给它增加到一千一万的话,频率波动的现象呢它不会消失,但是波动的范围会进一步收缩,收缩到越来越小的区间之内。

基于上面的这个逻辑啊,我们把根据频率计算概率的过程给它反转过来。

那么就是频率统计估计参数的过程,频率统计理论的核心是什么呢?认定待估计的参数它是一个固定不变的常量,讨论参数的概率分布是没有意义的。

因为它是个常量啊,所以不存在这个概率的问题。

而用来估计参数的数据呢,它是随机的变量。

每一个数据都是在参数支配下的一次独立重复筛验的结果。

由于参数本身是确定的,那么频率的波动它就不来源于参数本身的不确定性,而是由有限次观察所造成的干扰而导致的这就告诉我们,一方面呢,我可以根据这些不精确的数据来对未知参数的精确取值呢做出一个有效的推断啊,我是可以推断的。

有的这个数据啊,我不需要瞎猜。

另外一方面,这个数据当中包含的只是关于参数它不完全的信息。

所以从样本来估计,整体就必然会产生误差,这个误差呢也是不可避免。

统计学的核心任务之一就是从根据从总体当中抽取出来的样本,也就是数据来估计未知的总体参数。

那么参数的最优估计呢,可以通过样本数据的分布,也就是这个采样分布来进行求解。

由于频率统计将数据看作是随机变量啊,所以我们来计算采样分布呢,这是没有问题。

在确定采样分布之后,参数估计就可以等效成什么呢?一个最优化的问题。

而在频率统计当中,最经常使用的这个最优化的方法,那就是最大自然估计。

回忆一下,最大自然估计他的目标呢是让这个似然概率最大化。

也就是在给定参数的前提之下,或者说在固定参数的前提之下,这一组数据出现的条件概率最大化。

它其实代表了频率学派估计参数的一个基本的出发点。

一组数据之所以能够出现在实验当中,就是因为什么呢?因为他是最可能的结果,参数呼计的过程就是赋予这一组观测数据最大似然概率的过程。

这呢可以通过下面这个简单的例子来加一个说明。

这个例子是这样。

如果说观测到的数据啊,期带是真是值c的,和方差为sigma的平方。

但是形式未知的噪声EI,两者的一个叠加,也就是c的i等于c的加证EI.那么怎么来计算西塔的最优估计值呢?要用最大自然估计来解决这个问题的话,首先呢就要对自然概率进行建模。

那么建模当中,这里面用到的一个重要的假设是什么呢?假设未知形式的噪声,它满足高斯分布,这不仅在统计学当中,在其他学科里也是一个常用的。

假设从理论上来说啊,在功率有限的条件之下,高斯噪声的细纹伤它是最大的,所以呢带来的不确定性也就越大。

换句话说,这是最恶劣的噪声啊,在所有功率一样的这个噪声里面,它的性能是最差。

那么从实践上说,真实的噪声呢通常来源于多个独立的物理过程,都具有不同的概率分布。

那么中心极限定理告诉我们,当噪声源的数目越来越多的时候,它们的叠加就会趋近于高斯分布。

所以呢高斯分布也是对真实情况一个合理的模拟。

有了这个假设之后,点击文稿,你就可以看到在高斯噪声的假设之下啊,最大似然估计的求解过程还有结果。

观察这个结果呢,你就会发现,虽然说真实值西塔它是一个固定的值,但是估计值啊却是数据的函数,因此呢也是一个随机的变量。

这点其实好理解,因为估计值本质上啊是利用数据构造出来的函数。

既然数据它是随机分布,那么估计值肯定也是随机的这意味着如果每次估计所使用的数据不同的话,得到的估计值肯定也不会一样。

那么,如何来度量作为随机变量的估计值和作为客观常量的真实值两者之间的偏差呢?置信区间就是品率学派给出的答案。

置信区间它的意义啊在于划定了真值的取值范围,真实的参数会以一定的概率啊,比方说阿尔法落入根据样本计算出来的至进区间之内。

当然了,这里的概率啊,我们还是要从频率的角度来解读,从同一个总体当中进行一百次采样。

那我可以得到一百个不同的样本。

根据这一百个不同的样本呢,又可以计算出一百个不同的制进区间。

那么问题来了,在这么多个致敬局员当中,包含真值的有多少个呢?一百乘以阿尔法铬,剩下的这个一百乘以一减阿尔法这么多个置进区间,它就把真值给漏掉了。

这有点像什么呢?像乱墙打鸟,每一枪都乱打一梭子,打了一百枪之后,我来统计战果,发现打下来多少打下来一百乘以阿尔法这么多只鸟。

如果说把参数的这个真实值比喻成鸟,那么每一枪轰出来的这一梭子子弹就是置信区舰。

对于这些期间来说,它的上下界和估计值一样啊,也是随机变量。

总结下来的话,频率主义它解决统计问题的思路呢是这样,参数是确定的,数据是随机的,利用随机的数据来推断确定的参数,得到的结果也是随机的。

这种思路呢它直接把可能的参数空间给压缩成一个点,参数本身它可能会满足这样或者那样的概率分布。

但是一旦试验的条件确定,参数表现出来的就是一个固定的趋值,这就让所有的概率分布都失去了意义。

这什么意思呢?其实说上帝他真的掷骰子,但是当骰子脱手之后,得到的这个点数其实就是确定不变。

那么频率主义者关注的就是这个唯一存在的真实的参数。

通过计算这个参数对数据的影响来实现估计焦频率主义参数确定数据随机的思路。

应用到机器学习当中,得到的就是统计机器学习。

统计机器学习的做法是什么呢?通过对给定的指标,比方说自然函数或者这个最小均方误差来进行最优化,借此估计模型当中参数的取值。

在估计的时候呢,它并不考虑参数的不确定性,也就是不考虑未知参数的线验分布和参数相关的信息。

全部来源于数据,输出的呢则是未知参数唯一的估计结果。

这就是统计机器学习它核心的特征。

在统计机器学习当中一个关键的问题是损失函数的这个定义。

因为它直接的关系到如何度量模型的性能损失函数的数学期望被称为风险。

由于参数是固定的,而数据是随机的。

因此在计算风险的时候呢,我需要在数据的概率分布之上,对损失函数进行积分。

但是数据的分布它又依赖于未知的参数,这就给比率主义出了一个没法解决的问题。

也就是风险函数它实际上是没有办法精确的来求解。

为了解决这个问题啊,统计学习引入了所谓的经验风险,也就是用训练数据的经验分布来替换掉原始的表达式当中数据的真实分布。

这样做呢就可以将风险函数转化成一个可计算的数值。

在真实的学习算法当中,无论是分类问题当中的误分类率,还是回归问题当中的均方误差,它都是经验风险的实力。

而这时球解出来的最优模型,也就是让经验风险最小化的那个模型。

今天我和你分享了频率学派对概率统计学和机器学习的认识方式,包括以下的几个要点。

第一频率学派认为概率是随机事件发生频率的极限值。

第二比率学派执行参数估计时,视参数为确定的序值,视数据为随机变量。

第三,频率学派主要使用最大自然估计法,让数据在给定参数下的似然概率最大化。

第四,频率学派对应着机器学习当中的统计学习,以经验风险最小化作为模清选择的准则。

有了这些理论之后,如何在实际问题当中应用频率主义的统计学呢?这里有一个非常好的例子,它来源于nature biotechnology.第二十二卷第九期上的一个论文。

论文的题目叫什么?是贝叶斯统计学。

在这个例子里面,爱丽丝和鲍鲍啊两个人进行一场赌局,先得六分者获胜。

那么这里呢判断得分的方式有一些特别在赌局开始之前,这个何官先在赌桌上扔一个小球,在这个球停止的位置给他做个标记。

显然这个标记的位置呢是随机的,在整个的区域内是随机分布在赌局开始之后,合观呢继续扔球。

如果说这个球停到标记的左侧,那么埃丽斯得分停到右侧的话,报不得分。

这就是这个赌局唯一的规则。

那么问题来了,在这样的规则之下,爱丽丝现在呢是以五比三领先勃。

这个时候我要问你鲍鲍获胜的概率,反败为胜的概率是多大呢?要计算bob获胜概率的话,必须要借助一个参数,那就是埃丽丝得分的概率啊,我们不妨将它设为p如果爱丽丝得分的概率为p,那么bob得分的概率就是一减p显然概率p取决于标记在赌桌上的位置。

由于这个标记的位置本身是随机的,那么p呢也就会在零一这个区间之上满足均匀分布。

按照频率主义的观点,在这一场赌局当中,p是有固定的取值的。

这个取值呢可以通过已有的得分结果来估计。

那么估计出p之后就可以进一步的来计算bob获胜的概率。

这个问题呢就作为今天的思考题目,你可以手动的计算一下。

但是这个问题啊他并没有到此为止,如果跳出频率主义的限制,把p的概率分布引入到计算之中,又会得到什么样的结果呢?你可以思考一下。