机器学习40讲_29_总结课_机器学习的模型体系

你好，我是王天一。

今天呢我将和你一起对我们已经介绍过的机器学习的模型来做一个总结。

用十七讲的篇幅，我和你分享了目前机器学习当中大多数的主流模型。

可是，除开了解了各自的原理，这些模型背后的共性规律在哪里？而这些规律又将如何指导？对于新模型的理解呢，这就是今天这篇总结的主题。

要想在纷繁复杂的模型万花筒当中梳理出一条清晰的脉络的话，还是要回到最原始的出发点，也就是线性回归。

线性回归它是所有机器学习模型的鼻祖。

其原因呢不仅在于它悠久的历史，还在于三个最基本的特点。

第一是线性，线性呢是除了常数之外，最简单的这个函数的关系。

第二呢是全局性，一组线性，记住适用于整个输入空间。

第三呢是数据的不变性，也就是不对输入数据进行任何的预处理。

正是这样三个特点，决定了线性回归它简洁的数学形式，清晰的可解释性，还有受限的表达能力。

要想从线性回归出发，得到更加复杂的模型的话，就要摆脱这三个基本假设的限制。

从那一步对模型来加以改造，线性呢是首当其冲的改造对象，要对复杂的客观世界进行建模的话，非线性肯定是不可或缺的啊，因为世界本身就是一个非线性的世界。

但是从线性到非线性的过渡呢，不是说一蹴而就，而是循序渐进的实现它的变化或者演进的过程。

大致遵循这个从属性的非线性，到参数的非线性，再到全局非线性这样的一个路线图。

首先是属性的非线性化，典型的处理手段就是奇函数的扩展。

奇函数的引入呢本质上是对特征空间的一个重构。

一般来说，所有奇函数构成一组正交基那自变量和因变量之间的非线性关系就被限制。

在这组正交基所展成的这个线性空间当中，基函数的形式越复杂，模型刻画复杂，关系的能力也就越强。

除这个角度看呢，多项式模型还有分段的样条模型，都可以归入到属性非线性化这个范畴之中。

除了对作为自变量的属性来进行非线性化的处理之外，带估计的模型参数也可以非线性化。

这里呢我用参数的非线性化来指代属性不变。

但是参数改变的模型，因为通常来说这个参数是我们要求解的对象。

实际上啊它是不存在非线性这个这样的一个概念啊，但是我们在这里用非线性来指代它变化的一个过程啊，属性不变。

但是参数改变的这样的模型，参数的非线性化呢，通常是以自适应的调整方式来体现的。

这种演化的代表模型就是以感知器为代表的神经网络。

而在神经网络当中，激活函数的使用，它又可以看成是奇函数扩展的一个特点。

如果说在前两者的基础之上啊，我进一步对属性和参数实现全局的非线性化的话，这时得到呢就是广义线性模型，代表模型呢是逻辑回归。

广义线性模型，它的非线性化是通过这个非线性的链接函数来实现将线性组合的整体作为非线性化的对象，这是它的特点。

这种处理方法呢从根本上改变了线性模型的结构，将线性模型的应用范围从回归推广到了分类以及其他非线性的任务。

处理完线性特性之后，那接下来就轮到这个全局性了一手遮天的拳局特性，它限制了模型的灵活性，改进的方法就是将它改造成若干个局部模型的组合。

它的演进过程呢可以描述成为结构化局部到非结构化局部，再到分布式表示结构化局部模型呢它的代表是核函数。

虽然说它原本的目的啊并不在于实现局部化这样的概念，但是在事实上呢却起到了局部化的作用，具有固定形式的核函数。

它给每一个样本呢都定义了归他管辖的这一亩三分地。

非样本点的取值则等于所有样本在这个点不同贡献的一个求和。

如果说非线性化它是重新定义了属性空间的话，那么局部化呢就相当于对这个新的属性空间进行了一个手术刀板精细的切割。

他是把线性回归拓展成了核回归。

由此呢还衍生出基于距离的学习核函数，它是具有明确解析式的这个数据函数。

这说明呢它还具备着一定的结构特性。

如果说将局部的结构特性都不加保留的完全拆解的话，这时候得到的就是以KG零为代表的基于实力的学习k近林算法，它是秉持着少数服从多数的这样的朴素的观念。

他将学习的方法呢简化到了极致，甚至不能成为一个模型。

因为支配它的不是固定的参数，而是一种规则。

在线性回归当中应用k近零方法的话，它就变成了这个局部的加权回归。

这也就是非结构化的局部这样的一个拓展。

将局部化的思想再推进一步呢得到的就是分布式的表示局部化。

它是对数据样本所在特征空间的切割。

但是分布式表示呢可以看成是对特征空间的重组，将原来单个的数据点变出多个分身啊，分别作为对数据不同角度的一个观察结果。

分布式表示，虽然没有对特征空间显示的局部化处理，但他呢却将数据点打散成为不同局部的组合，这在朴素贝叶斯还有深度学习当中都有所体现。

改造了线性回归本身之后啊，还要改造线性回归，对数据的处理方式，过多的特征数会导致这个维数灾难的发生。

所以稀疏化就成为改进线性回归的另一个角度。

降维呢其实它也属于对特征空间的重建。

但是无监督的特性使它通常出现在数据预处理的步骤当中。

根据手段的不同，数据的降维技术可以近似的划分成为直接降维、线性降维，还有非线性降维这样的几个类别。

直接降维的处理对象是未经处理的原始的输入维度。

那它典型的方法呢是特征选择，特征选择会把对结果贡献不大的特征直接删除。

这呢无疑会造成信息量的损失。

除此之外，利用统计特性降维的这个线性判别分析，其实也可以归入到这个范畴当中。

相比之下呢，以主成分分析为代表的特征提取方法就克服了这个缺点。

它是通过特征的线性重组来实现数据的降维。

对主成们进行筛选的时候，虽然也会产生信息的损失，但呢这个过程会有更好的这个可控性。

如果抛开线性的限制，从样本的结构属性而非信息属性出发来实现降维的话，这样的方法呢就是非线性降维。

它的另一个名字就是流形学习。

所谓流行的含义是嵌入到高维空间当中的低维结构。

那么流形学习的任务就是在高维空间之上，把这个隐藏的低维结构给它提取出来。

从而呢对数据进行更好的观察，还有分析。

那么上面的三种途径啊，非线性化、局部化，还有稀疏化都是作用在模型内部。

那通过修正模型自身的特性来达到演化的目的。

如果说换个角度的话，从外部对模型进行拓展，常用的方法呢也有三种，分别是正则化、层次化，还有集成化。

正则化呢它意在通过添加对待求解参数，额外的约束条件来提升模型的泛化性能，从而避免过拟合实践的方式呢，通常体现为在模型当中添加正则化项。

那么相比于匹率主义呢，贝叶斯主义对正则化的理解来得更加直截了当。

所谓正则化，其实就是给模型套上鲜艳分布的这个紧箍咒，定义了先验分布，就可以应用这个最大后验概率估计。

那么在给定的先验之下，让后验概率最大的过程，其实就是正则化的过程。

层次化和集成化也是对模型结构的外部改写。

层次化呢相当于将模型串联起来，通过逐级的学习来追求由浅入深的效果。

集成化则是将模型并联起来，让多个模型群策群力，充分的发挥集体智慧。

那深度学习还有随机森林的成功，已经向世人证明，这两种手段都能让模型之间产生充分的互动，从而达到良好的学习效果。

说到这儿呢，我们就从线性回归出发，构建出了如下图所示的，当然是我个人理解的机器学习模型的一个鸟瞰图。

无论是作用于模型内部的非线性化、局部化和稀疏化，还是作用于模型外部的正则化、层次化还有集成化。

这些技巧呢实际上都属于方法的范畴。

实际问题的解决方案往往来源于一种或者多种方法和基本模型的一个组合。

所以在我看来呢，在读完这个专栏之后，你可以利用我们上面总结的方法，将所有具体的模型全部忘掉。

只要领会这些方法，任何见过或者没见过的模型，你都不会觉得陌生。

从上面介绍的机器学习模型的体系架构出发，按照由浅入深的顺序，我向你推荐以下的机器学习参考书。

第一层次呢有以下三本，分别是tommy、 chill的积极学习、peilter flag的积极学习，还有SM or padding的积极学习导论。

这三本书呢是入门读物，共同的特点是结构清晰，难度适中。

第一本是历久弥新的经典教材，虽说成熟的时间比较久远，但仍不失为理想的入门读物。

第二本是遵循从任务到模型的顺序，将模型分为数模型、规则模型、线性模型、距离模型，还有概率模型这样的几个类别。

第三本呢则先后介绍了参数方法、非参数方法和局部模型，并将频率主义还有贝叶斯主义的内容融合在一起。

读这些书的时候呢，你主要需要思考作者们对于内容的编排是如何理解机器学习的分类的方式的，并且将重点放在建立关于机器学习的知识框架与体系上面。

第二层次呢也有三本，分别是travel hasty的统计学习基础。

Christopher bishop的模式识别与机器学习，还有e an goodfellow的深度学习。

这三本书呢是进阶读物，对方法的原理分析具有一定的深度，也会涉及大量的数学运算。

前两本是机器学习领域的经典，分别从频率主义和贝叶斯主义的角度对机器学习做出了详尽的阐释。

第三门呢则是目前关于深度学习唯一的专注覆盖范围较广，适合针对某个主题做选择性的阅读。

第三层次呢也有三本书，分别是kevin mophe的机器学习概率视角shy、 shy、 ve shshouts的深入理解机器学习，还有拉德米尔瓦布尼克的统计学习理论的本质。

这三本书呢就相当专业了。

第一本堪称机器学习的百科全书，从贝叶斯角度对机器学习的几乎所有的问题展开论述。

这本书呢它不太适合阅读，更适用于作为百科全书或者词典，随时的进行查阅。

第二本则聚焦于经济学习的数学理论领域，虽然页数不多，但却充斥着各种定理和证明过程。

和前面的所有书工都不是同一个路数。

如果说你想要深入理解机器学习背后的这个数学理论，那这本书绝对不容错过。

最后一本呢是理论大师瓦普尼克啊，也就是这个支持向量机的发明者毕生绝学的简化版。

他的统计学习理论呢殊如其名，对通过样本推断总体规律的这个数学问题啊做了非常详尽的论述，是统计学习思想的集大成者，读起来呢非常的尖深晦涩。

那么这里介绍的统计学习理论的本质是统计学习理论。

它的一个简化版，在大幅度削减篇幅和数学细节的同时呢，保留了核心的结论。

这本书的作用在于欲穷千里目，更上一层楼。

读通之后啊，你将建立起看待机器学习更加高屋建瓴的一个视角。

常言说得好，授人以鱼，不如授人以鱼。

我希望今天的这篇总结所给出的思路能成为那个带三点水的鱼，帮你厘清每个孤立模型背后的联系以及他们之间的逻辑。

那么在这段时间的学习过程当中啊，你遇到了哪些问题，又有哪些想法呢？欢迎你留言和我讨论。