AI内参_12_011_精读2017年NIPS最佳研究论文之二KSD测试如何检验两个分布的异同

你好，我是洪亮杰。

今天我和你分享的主题是精读。

二零一七年，NIPS最佳研究论文之二，KSD测试如何检验两个分布的异同。

本周我们来分析和探讨NIPS二零一七上的三篇最佳论文。

周一我们分享的文章主要研究的是一种健壮的优化论题。

也就是说，我们在优化一个损失函数的时候，不仅要考虑损失函数的均值，还要考虑损失函数的方差。

今天我们来看另外一篇最佳论文，线性时间内和拟合优度测试讲的是如何来衡量一组数据是否来自于某一个分布。

今天的这篇文章理论性也很强。

这里我尝试从更高的维度为你做一个归纳。

如果对文章内容感兴趣，建议你一定要去阅读。

原文。

本文一共有五位作者，我们在这里进行一个简要介绍。

第一，作者叫做维特瓦特吉特克鲁特。

刚从伦敦大学学院的加斯比计算，人脑科学所博士毕业。

他在博士期间的主要研究是统计测试，特别是如何利用核方法来对分布特征进行测试。

吉特克鲁特在泰国完成本科学习，与日本东京的东京科技学院获得硕士学位。

最近，作者吉特克鲁特已经在NIPSICMLUAI等会议连续发表了多篇高质量论文。

第以作是统计测试界的学者新秀。

第二，作者，许文凯是加斯比计算人脑科学所的一名博士生。

第三作者，佐尔坦萨博，来自法国一所著名的理工大学巴黎综合理工学院萨博之前也曾在加斯比计算人脑科学所工作过。

目前，在巴黎综合理工学院任职研究副教授长期从事核方法、信息论、统计、机器学习等方面的研究。

第四，作者，福水建次是统计数学学。

那教授长期从事核方法的研究，可以说是这方面的专家。

最后一个作者，阿斯格格顿顿加斯比计算人脑科学所的机器学习教授，长期从事机器学习，特别是核方法的研究。

这个论文有九篇文字的引用数。

我们首先来看一下这篇文章的主要贡献。

理解这篇文章主要要解决了统么场景的问程。

在一般的建模场景里，我们常常会对一组数据提出一个模型来描述产生这些数据背后的过程。

这个过程我们通常是看不见的，是一个隐含的过程。

那么当我们提出了模型之后，如何知道用这个模型描述现实就是准确的呢？这时候啊我们就需要用到一些统计检验的方法。

一种比较普遍的方法呢就是假设我们的模型是p而数据的产生分布式q说的直白白一些，就需要去验证p是不是等于q也是需要验证两个分布是否相等。

一个基本的做法就是从p产生一组样本，或者叫一组数据。

然后我们已经有了一组从q里产生的数据。

于是用两个样本假设检验来看，这两组数据背后的分布是否相等。

这个想法看似无懈可击，但是在实际操作往往充满困难，最大的操作难点就是从p中产生样本，比如p是一个深度神经网络模型，那从中产生样本就不是一个简单且计算效率高的流程，这就为基于两个样本假设检验带来了难度。

另一方面，我们在做这样的统计检验的时候，最好能够针对每一个数据点得到一个数值来描述当前数据点和模型之间的关系，从而能够给我们带来更加直观的认识。

看描型是否符合数据。

这里有一种叫做最大均值差别，或者简称为MMD的检验方法，能够达到这样的效果。

Mmd的提出者就是这篇论文的最后一位。

作者，阿瑟格里顿MMD是在NIPS二零一六提出的一个检验两个样本是否来自同一个分布的一种方法。

当MMD值大的时候，就说明这两个样本更有可能数字不同的分布和一般的衡量两个分布距离的方法相比。

Mmd的不同之处是把两个分布都通过核方法转换到了另外一个空间，也就是通常所说的再生和希尔伯特空间，或者简称RKHS在这个空间里测量会变得更加容易。

然而，遗憾的是，MMD依然需要得到两个分布的样本。

也就是说，我们依然需要从p里得到样本。

那么这篇文章的最大贡献就是使用了一系列的技巧，让p和q的比较不依赖于从p中得到样本，从而让数据对于模型的验证仅仅依赖于p的一个所谓的打分函数。

其实在MMD里，这个打分函数就是存在的那就是针对我们从p或者是q提取出来的样本。

我们先经过一个函数f的变换，然后再经过一个叫核函数t的操作，最后两个样本转换的结果相减。

在这篇文章里，作者们提出了一个叫和斯特恩差异，或者叫KSD测试的概念，本质上就是希望能够让这两个式子中关于p的项等于零。

什么意思呢？刚才我们说了MMD第一个问题是依然要依赖于p依赖于p的样本。

假设我们能够让依赖p的样本这一项成为零。

那么我们这个测试就不需要p的样本了。

那也就是绕过了刚才所说的难点。

Ksd的本质就是让MMD的第二项在任何时候都成为零。

注意我们这里所说的是，任何时候，也就是说KSD构造了一个特殊的t这个t叫做斯特恩运算符。

使得第二项关于p的样本的计算，在任何函数f的情况下都是零。

这一点在文章中提供了详细说明。

于是啊整个KSD就不依赖于p的样本了。

这篇文章不仅阐述了KSD的思想，而且在KSD的思想上更近了一步，试图把KSD的计算复杂度，也就是在平方级别的计算复杂度变为线性复杂度。

什么意思呢？也就是说，希望能够让KSD的计算复杂度随着数据点的增加而线性增加，从而能够应用到大数据上这个内容我们就不在这里复述了。

最后我们来看方法的实验效果。

虽然这篇文章的核心内容是一个理论复杂度者，是线法革新文章，还是在受限波斯曼积简称RBM上做了实验，本质上就是在RB m的某个个链接进进行了简单的改变，而整个模型都保原样。

如果我们有从这两个RBM中中得到样本，其实是难知道他们之间的区别的。

在实验中，传统的MMD基本上上法法看出这两个样本的差别。

然而，不管是KSD还是线性的KSD,都能够得正确的差结。

然而，最终的线性KSD基本上是随着数据点的增多。

而性能增加使用线性的效果。

最后，作者们用了芝加哥犯罪记录来作为说明，使使用打分函数来形象的找到哪些点不符合模型，应该理论性。

这么强的论文，有如此直观的结果，实在难能可贵。

今天我为你讲了NIPS二零一七年的另外一篇最佳研究论文文章的一个核心观点，就是希望能够通过构建一个特殊的运算符，使得传统的通过样本来检验两个分布的异同的方法。

比如MMD方法可以不依赖于目标分布的方本，并且还能达到线性计算速度。

一起来回顾一下要点。

第一，我们简要介绍了这篇文章的作者群信息。

第二，我们详细介绍了这篇文章要解决的问题以及贡献。

第三，我们简要的介绍了文章的实验结果。

最后给你留一个思考题。

这种衡量分布之间距离的想法，除了假设检验中使用以外，在机器学习的哪个环节也经常碰到。

欢迎你给我留言，和我一起讨论。