机器学习40讲_19_18_从全局到局部核技巧
你好,我是王天一。
今天我和你分享的主题是从全局到局部和技巧。
俗话说的好啊,支持向量机有三宝间隔对偶合技巧。
在上一篇文章当中呢,我是介绍了间隔这个核心的概念。
今天我们就来看看对偶还有合技巧的使用对偶性,它是主要应用在最优决策边界的。
求解当中他的逻辑呢比较简单,但是在介绍核技巧的时候,会涉及到核函数、核方法、核技巧这些近似的概念。
虽然说从名字上看,他们都是盒字辈儿的兄弟,但是在含义和用途上却不能一概而论。
因此呢有必要对他们做一些系统的梳理。
当支持向量机用于线性可奔的数据的时候,不同类别的支持向量到最优决策边界的距离之和。
它等于w分之二。
这里的w呢是超平面的线性系数,也就是法向量。
不难看出让间隔w分之一最大化,就是让w的平方最小化。
当然这里的w是这个法向量,它作为一个向量的模模的平方。
这个问题呢本身是个凸二次规划问题,求解起来呢轻松加随意。
但是借助拉格朗日、橙子这个原问题,就可以改写成所谓的广义拉格朗日函数。
点击文稿,你可以看到它的表达式和原来的优化问题相比呢,除了和决策边界有关的变量w和b之外,广义拉格朗日函数LWB阿尔法还引入了一组不小于零的参数。
阿尔法i这个式子啊,其实从另一个角度说明了为什么最优的决策边界只取决于几个支持向量。
因为对于不是支持向量的数据点来说,它们的系数阿尔法i都是等于零的。
所以说这些点在LWB阿尔法最小化的过程当中并没有产生贡献。
就变成了路人甲乙丙丁了。
广义拉格朗日函数啊,它的最优化的求解也可以分成两步。
首先呢要把这个l看成是阿尔法的函数,再将w和b视为常量的前提下,求出它的最大值。
我把w和b都固定不变,只把阿尔法看成一个变量。
这时候求解他关于阿尔法的最大值,求出来最大值之后,由于阿尔法被消去了,所以这时求出来的最值呢就是只和w和b相关的函数。
接下来如何确定最优的角色边界的参数呢?这里要分两种情况来考虑,当这个参数w和b不满足原问题约束的时候,我们总能找到让目标函数取值为正无穷的。
这个阿尔法这说明什么呢?其实最大值压根儿就是不存在,只有当w和b符合原问题要求的时候啊,求出来的最大值才有意义。
那这个最大值等于多少呢?就是二分之w的平方。
经过这么一番折腾之后,原始的最小化问题就被等效为广义拉格朗日函数。
它的极小极大问题。
这个极小极大问题呢是先对阿尔法求极大,再对w和b求极小。
如果对上一季的内容还有印象的话啊,你可能看到这儿一拍大腿,一边最大一边最小,这不就是传说中的这个鞍点吗?在计算多重积分的时候呢,我们可以通过调换积分的顺序来简化计算这种思路。
在对偶问题当中也有他的用武之地,把极小极大调个个儿就变成了极大极小。
那么在解决几大几小问题的时候呢,我们确定参数的这个顺序啊,也要进行相应的反转。
点击文稿,你可以看到支持向量机中广义拉格朗日函数的极大极小问题以及这个原优化问题。
它的对偶问题虽说一顿操作猛如虎啊,将原问题变成了队友问题,但是这两者之间到底能不能完全画上等号呢?这还是个未知数。
直观来看,原函数求出来的是l的最大值的下界啊,也就是最小的最大值。
对偶函数呢求出来的是l最小值的上界,也就是最大的最小值。
可以肯定的是,后者不会大于前者,但是呢也不意味着他们就无条件的相等在这里。
啊,我们可以进一步的证明,当上面的这个过程满足KKT条件的时候,原问题和对偶问题才是殊途同归的。
那么支持向量机对于原问题和对偶问题之间等价关系的利用,就是它的对偶性。
说完了对偶性呢,下面我们来看一看核技巧。
在核技巧这代大戏里,第一个出场的是何汉树,这是盒子辈儿。
这些兄弟里面的开山鼻祖要理解,核函数啊,还是要从史上最著名的线性不可分问题,也就是异或问题出发。
假定待分类的四个疑惑点分别是零零零幺幺零和幺幺。
这样的数据集呢在二维平面上使用单个的一条直线啊,是没有办法给它们区分的。
那么怎么处理呢?只需要添加一个多项式形式的新的属性,斐x等于x一减去x二的平方,也就是两个坐标值之差的平方。
引入这个新属性,就可以将原来的四个点分别映射到三维空间之上。
他们的坐标也就变成了零零零零幺幺幺零幺和幺幺零。
这种情况之下,在三维空间当中啊,我只需要把原来的数据平面向上稍微的抬起来一点,就能完美的区分这两个类别。
既然FX能够生成新的属性,那它就是传说中的核函数吧。
可议five x只是一个特征,映射它的作用是从原始的属性生成新的特征,对高维空间上新生成的特征向量进行内积运算,得到的才是真正的核暗数。
点击文稿。
你可以看到和函数的数学表达式,核函数的这个公式呢给出了生成条件啊,而非判定条件。
当给定特征的映射方式之后,我可以拿它来计算核函数。
但反过来,当给出一个确定的函数的时候,如何判定它能不能作为核函数呢?梅塞尔定理解决的就是这个判定的问题。
这个定理是在一九零九年,由英国的数学家詹姆斯梅塞尔所提出的,它内容是什么呢?任何满足对称性和半正定性的函数,都是某个高维希尔伯特空间的内积。
只要一个函数满足这两个条件,它就可以用作核函数。
但是需要注意的一点是,梅塞尔定理只是判定核函数,它充分而非必要的条件满足梅塞尔定理肯定是和函数不满足,梅塞尔定理也可能是核函数。
之所以要将特征映射表示成核函数,是因为内积的引入能够简化高维空间当中复杂的运算。
点击文稿,你可以看到映射到高维空间之后,待优化的对偶问题的形式。
按照一般的思路呢,要直接计算上面的表达式,就得先写出find x形式,然后再在新的高维特征空间当中计算内积。
但是这在实际的运算当中会存在着很大的困难。
如果five x它的表达式未知的话,那这个内积就没有办法去计算机制八x的形式。
已知如果说特征空间的维数较高,甚至于说达到无穷围的话,内机的运算也会非常困难。
这时就需要核函术来发挥他的威力了。
和函数说到底就是瓦布尼克能走直线就别兜圈子。
这个思想的差,既然我优化的对象是内机的结果啊,那么直接定义内机的表达式就可以了,何苦还要再引入特征映射和特征空间?这两个中间的步骤呢,当然想法是好的,更重要的是梅塞尔定律给这种捷径提供了理论的依据。
只要这个核函数满足对称性,还有半正定的条件对应的映射空间,它就是铁定存在。
所以说核函数的引入相当于隐式的定义了特征映射和特征空间。
我并没有把这两个步骤摆在明面上,把它显示的表示出来。
那么这样做的好处就是不需要关心这些中间结果的形式,我就可以直接计算待优化的内积。
这样做呢就能大大简化运算的这个繁琐的程度。
从和函数出发,可以衍生出其他和和相关的概念。
从思想上讲核方法表示的是将低维空间上线性不可分的问题转化成高维空间中线性可分问题的一个思路。
那么从运算上讲核技巧表示的是间接定义特征映射,从而直接计算内积的这个运算方法。
两者呢可以看成是同一枚硬币的两面,虽然说浑然一体,但是还是有所区别。
所以呢有必要加以说明。
在实际的应用当中,有一类特殊的这个平稳核函数。
它的参数是两个原始参数之差,也就是x减去x撇。
平稳和函数呢它满足平移不变性,只要输入的x和x撇,两者的相对位置不变,那核函数的取值就不会发生变化。
如果在平移不变性的基础上再定义各项同性的话,那这个和函数的取值就会进一步和方向无关。
一种满足平移不变性和各项同性的恒函数呢就是镜像积和点击文档。
你可以看到它的表达式,在数学上可以推导出镜像集合所对应的这个特征映射啊,它是无穷为的。
也就是这个演示的特征,空间是无穷为的。
空间要计算这个无穷维的特征,映射是一个非常复杂的任务。
但是镜像机盒的出现,聪明的绕开了这个障碍。
应用在支持向量机当中的时候呢,镜像机和就可以将线性的边界转换成非线性的边界。
在SK lan当中啊,要设置核函数的方法并不难,只需要将SVC类里面的参数可能啊设置成RBF就可以使用这个镜像机和。
当然呢,你也可以使用其他类型的核函数计算机核的参数。
Sigma它决定了这个高斯形式的一个宽度。
但是在SVC类当中呢,它是以伽马等于二倍的西格马平方分之一这样的一个参数来出现。
这意味着我在调用SAC类的时候,你的这个伽马设置的越大盒的宽度啊就越窄。
除了核的宽度之外,另一个需要设置的是正则化的参数。
C这个参数越大呢,正则化的效果就越弱。
当c一接近正无穷的时候,计算出来的就是未经正则化处理的结果。
那么在上一篇文章当中啊,我们应用这个实例的时候,其实也是没有做正则化的处理。
在这里,我们将镜像集合应用到前一篇文章里,使用的线性不可分的数据集里,就可以将两类数据完全的分开点击文稿。
你可以看到镜像机和它的分类的结果,除了简化内句运算之外,核函数更本质的意义在于对于相似性度量的一个表示。
回忆一下线性代数的内容内积,它表示的是两个向量之间的关系。
如果将两个向量归一化之后再来计算内积求出来的就是两者之间的夹角。
作为原始内积的非线性拓展核函数,它相当于重新定义了数据的表征框架。
它是将每个维度上的绝对坐标替换成了两两之间的相似度。
这样一来呢,分类问题就被简化,成为从几何意义出发,基于相似性的度量,在高维特征空间之上,找到线性的决策边界,再将它映射成低维空间上非线性的角色。
编辑不管是核函数核方法还是核技巧,它所表示的实际上都是这样的一个过程。
在直观的认知当中啊,两个数据点它相距越近的话,归属于同一类别的可能性就越大。
如果说将镜像机的结果看成是两个数据点的相似度,那么x和x撇离得越近,两者之间的相似度就越高,在数值上是接近于一的。
反过来,如果他们离得越远,相似度就会越低,在数值上接近于零。
有了这个相似度之后,接下来计算出来的相似度就成为了分类的依据。
一个新的数据点和哪个类别的相似度高,它就归属于哪个类别和线性判别分析,还有逻辑回归。
这些参数化的分类模型相比呢,核函数它其实更多的是借鉴了物以类聚这样的一个简单的逻辑,将这种逻辑引申一步就可以得到核函数。
它其实是实现局部化的工具。
荷函数本质上也是一组权重系数。
但是它和线性模型当中,权重系数的区别在于,它是取决于距离的,由距离所表征的相似度决定了系数的趋势。
在整体上,数据空间的全局参数并不能通过最小二乘这类全局性的方法计算出来,而是要将每个恒函数所表示的局部尺度特征叠加到一块。
这样看来呢,每个和安数就像是战国当中雄踞一方的诸侯,他的势力在远离权力中心的过程当中会不断的削弱。
和这些叱咤一方的诸侯相比,作为全剧魔镜的周天子就完全变成了摆设了。
今天,我和你分享的支持限量机中对偶和合技巧的概念与原理,包含着以下的四个要点。
第一,支持向量机在求解最优边界时,需要利用对偶性将原问题转化为对偶问题求解。
第二,在思想上核方法将高维空间上的线性边界转化成低维空间上的非线性边界。
第三,在运算上,核技巧能在低维空间中直接计算高维空间中的内积。
第四,核函数具有局部化的特点,是从全局模型到局部模型的过渡手段。
在人工智能基础课当中,高斯形式的镜像机函数其实就有过亮相。
他出现在镜像机神经网络的介绍当中,你可以复习一下这一部分的内容,借此加深对核函数和局部特性关系的理解。