AI内参_05_004_精读2017年EMNLP最佳长论文之一

你好，我是洪亮杰，今天我来和你聊一聊。

二零一七年，EMNLP的最佳长论文自然语言处理实证方法会议简称EMNLP,是由国际计算语学协会ACL的的专委会SIGDAT主办，每年召开一次。

颇具影响力和规模，是自然语言处理类的顶级国际会议从一九九六年开始举办，已经有了二十多年的历史。

二零一七年的EMNLP大会于九月七号到十一号在丹麦的哥本哈根举行。

每年大会都会在众多的学术论文中挑选出两篇最具价值的论文。

作为最佳长论文。

今天啊我就带你认真剖析一下EMNLP今年的最佳长论文。

题目是男性也喜欢购物，使用语料库级别的约束条件，减少性别偏见的放大程度。

这篇文章也是很应景啊。

近期学术圈对于数据和机器学习算法有可能带来的偏见感到关切，有不少学者都在研究如何能对这些偏见进行评估、检测，进而可以改进甚至消除。

我还是先来介绍一下作者群信息。

第一，作者，赵洁玉论文发表的时候，在佛吉尼亚大学计算机系攻读博士学位，目前已转学到了加州大学洛杉矶分校从事如何从机器学习算法中探测和消除偏见的研究。

之前，他从北京航空航天大学获得学士和硕士学位，曾于二零一六年在滴滴研究院实习。

第二作者，王天禄，也是来自弗吉尼亚大学计算机系的博士生，之前在浙江大学获得计算机学士学位。

第三，作者，马克雅斯卡尔是来自华盛顿大学的计算机系，博士生，已在自然语言处理以及图像处理领域发表过多篇高质量论文。

第四，作者，文森特目前在弗吉尼亚大学计算机系任助理教授。

他的研究方向是自然语言处理以及计算机视觉的交叉学科。

他于二零一五年从北卡罗莱纳大学教堂山分校计算机系博士毕业博士期间，他在微软研究院、易贝研究院以及谷歌都有过实习经历，他是第二作者王天路的博士导师。

文章最后一位作者是张开伟，也是第一作者赵洁玉的导师。

他目前在加州大学洛杉矶分校任助理教授之前在弗吉尼亚大学任职。

他于二零一五年从伊利诺伊大学香槟分校博士毕业，师从著名教授丹罗斯在之前的研究生涯当中，曾经先后三次在微软研究院实习，最在谷歌研究院实习过。

在他研究的早期啊，曾经参与过了里布林。

那这个著名支持向量机软件的研发工作，下面我来说说论文的主要贡献。

机器学习的一个重要任务就是通过数据来学习某些具体工作。

最近机器学习的研究人员们发现啊，数据中可能蕴含着一些社会赋予的偏见，而机器学习算法很有可能会放大这些偏见，这种情况在自然语言处理的相关任务中可能更为明显。

比如在一些数据集里，做饭这个词和女性这个词一起出现的比例可能要比和男性一起出现的比例高百分之三十。

经过机器学习算法，在这个数据集训练之后，这个比例在测试数据集上可能就高达百分之六十八了。

因此啊，虽然在数据集里社会偏见已经有所呈现，但是这种偏见被机器学习算法放大了。

因此啊这篇文章的核心思想就是如何设计出算法，能够消除这种放大的偏见，使得机器学习算法能够更加公平。

注意，这里说的是消除放大的偏见，而不是追求绝对的平衡。

比如我们刚才提到的数据集训练集里，已经表现出女性和做饭一起出现的频率。

要高于男性和做饭一起出现的频率。

那么算法需要做的是使这个频率不会进一步在测试集里升高，也就是说保持之前的百分之三十的差距，而不把这个差距扩大。

这篇文章并不是追求把这个差距人为的调整到相同的状态。

文章提出了一个限制优化算法，为测试数据建立限制条件，使机器学习算法的结果在测试集上能够得到和训练集上相似的偏见比例。

注意啊，这是对已有测试结果的一个调整。

因此可以应用在多种不同的算法上。

作者们使用提出的算法在两个数据集上做例实验，得到的结果是新的测试结果不但能够大幅度的减小偏见，还能基本保持原来的测试准确度，可见提出的算法效果显著。

那么，作者们提出的究竟是一种什么方法呢？首先引入了一个叫偏见值的概念，这个值检测某一个变量和目标变量之间的比例关系。

例如男性这个词和某个动词一起出现的比例关系，以及女性这个词和同一个动词一起出现的比例关系。

注意哦，因为男性和女性都是性别的可选项。

因此啊，这两个词对于同一个动词的比例关系的和一定是一偏见值，在训练集上和测试集上的差别成了衡量偏见是否被放大的依据。

在之前的例子中，女性和做饭一起出现的偏见值在训练集上是零点六六，而到了测试集则变成了零点八四。

这个偏见被算法放大。

有了偏见值这个概念以后，作者们开始为测试集的结果定义限制条件。

这里的一个基本思想就是要对测试集的预测标签进行重新选择，使测试标签的预测结果和我们期待的分布相近。

用刚才的例子就是说我们要让女性在做饭这个场景下出现的可能性。

从零点八四回归到零点六六附近。

能够这么做，是因为这个算法需要对测试结果直接进行调整。

对所有的限制条件建模，其实就变成了一个经典的限制优化问题。

这个问题需要对整个测试数据的预测值进行优化。

那么这个优化就取决于测试数据集的大小，往往是非常困难的。

于是，作者们在这里采用了拉格朗日简化法来对原来的优化问题进行简化。

也就是说啊，原来的限制优化问题，经过拉格朗日简化法后，变成了非限制优化问题，原来的算法就可以成为一个动态更新的过程。

针对每一个测试用例都得到当前最优的标签更改方案，然后又进一步更新拉格朗日参数，这样对整个测试数据集遍历一次后，算法就终止了。

最后，我们来看作者们提出方法的实验效果。

作者们使用了两个实验数据，一个是in seu,一个是MS. Coco. In seu是一个视觉语义角色识别的任务，里面有多达十二万张图片和这些图片的文字语义信息。

比如一些图片是关于做饭场景的，里面的角色就是男性或者女性。

作者们整理出了二百一十二个动词，用作实验MS coco是一个多标签。

图片分类问题需要对八十类物品进行标签预测。

对于两个任务，作者们都选择了条件，随机场来作为基础模型，条件随机场往往是解决这类问题的第一选择。

对于特征，作者们采用了数据集提供的基于深度学习的各种特征，在条件随机场的基础上，对测试集采用了提出的偏见调整算法。

值得指出的是哦，虽然算法本身需要使用测试数据，但并不需要知道测试数据的真实标签标记信息仅仅是从训练集中得到，那么这一点也是作者们反复强调的。

从两个数据集的结果来看，效果都不错，原本的预测准确度并没有很大的降低。

但是性别偏见值则在测试集的调整结果后，大幅度降低，最大的结果可以降低百分之四十以上。

今天我为你讲了EMNLP二零一七年的年度最佳长论文，这篇论文针对数据集可能带来的社会偏见以及机器学习算法可能进一步扩大这种偏见的问题，提出了一个对测试数据集的预测结果进行调整的算法。

那么这个算法的核心是减小这种偏见，使偏见值在测试数据集中和训练数据集中的水平相当。

一起来回顾一下要点。

第一，简要介绍了这篇文章的作者群信息。

第二，详细介绍了这篇文章要解决的问题以及贡献。

第三，介绍了文章提出方法的核心内容。

最后给你留一个思考题。

为什么机器学习算法可能扩大训练集上已有的偏见呢？这跟某些具体的算法有什么关系呢？欢迎你给我留言，和我一起讨论。