AI内参_07_006_精读2017年EMNLP最佳短论文

你好，我是洪亮杰。

今天我和你分享的主题是二零一七年EMNLP的最佳短论文。

在今年的EMNLP大会上，有两类研究论文得到发表，一类是八页的长研究论文，主要是比较完整的研究结果。

另一类是四页的短研究论文，主要是比较新的，有待进一步推敲的研究结果。

大会从长研究论文中选出两篇最佳论文，从短论文中选出一篇最佳论文。

前面我们分别讨论了两篇最佳长论文，今天我就带你认真剖析一下EMNLP二零一七年的最佳短论文。

多智能体对话中，自然语言并非自然出现。

我们今天讲的论文虽然是最佳短论文，但是作者们已经在RKF发表了较长的文章版本。

因此，我今天的讲解也将基于RKF的长版本。

这篇文章研究的一个主要命题，就是多个机器人对话中如何才能避免产生非自然的对话，以及很多机器人对话的研究都关注准确率的高低。

但实际上，机器人产生的对话是不自然的，人类交流不会用那样的方式。

这篇文章希望探讨的就是这样非自然的对话是如何产生的，有没有什么方式避免这样的结果？我先来介绍一下作者群的信息。

第一作者，萨特维克库托尔来自卡内基梅隆大学博士，第四年研究领域为计算机视觉、自然语言和机器学习。

二零一六年暑假，他在snap chat的研究团队实习研究对话系统中的个性化问题。

二零一七年暑假，在facebook研究院实习做视觉对话系统的研究。

近两年，萨特维克也在多个国际顶级会议，如ICML二零一七、IJCI二零一七、CVCI二零一七、ICCV二零一七以及NIPS二零一七发表了多篇高质量研究论文，包括这篇EMNLP二零一七年的最佳短论文，可以说是一颗冉冉升起的学术新星。

第二，作者，何塞毛拉是萨特维克在卡内基梅隆大学的导师，何塞是美国国家工程院院士，也是IEEE院士长期从事信号处理以及大数据数据科学的研究工作。

他当选二零一八年IEEE总裁，负责IEE下一个阶段的发展。

第三作者斯特凡里是来自乔治亚理工大学的研究科学家。

之前在弗吉尼亚理工大学任职、长期从事计算机视觉、自然语言处理等多方面的研究。

斯特凡二零一六年博士毕业于印第安纳大学计算机系。

第四，作者，德鲁巴塔目前是facebook研究院的科学家，也是乔治亚理工大学的助理教授。

德鲁二零一零年博士毕业于卡内基梅隆大学，二零一零年到二零一二年，在位于芝加哥的丰田理工大学担任研究助理教授。

二零一三年到二零一六年，在弗吉尼亚大学任教。

二鲁长期从事人工智能，特别是视觉系统以及人机交互系统的研究工作。

文章的第三作者斯特凡是德鲁长期的研究合作者，他们一起已经发表了包括本文在内的多篇高质量论文。

我们还是先来看看这篇文章，主要解决了一个什么场景下的问题。

人工智能的一个核心场景，或者说想要实现的一个目标，就是能够建立一个目标导向的自动对话系统。

具体来说，在这样的系统中，机器人能够感知他们的环境，包括视觉、听觉以及其他感官，然后能和人或者其他机器人利用自然语言进行对话，从而实现某种目的。

目前对目标导向的自动对话系统的研究主要有两种思路，一种思路是把整个问题看作静态的监督学习任务，希望利用大量的数据，通过神经对话模型来对对话系统进行建模。

这个模式虽然在近些年的研究中取得了一些成绩，希望仍然很难解决一个大问题，那就是产生的对话。

其实不像真人对话不具备真实语言的很多特性。

另外一种思路则把学习对话系统的任务看作一个连续的过程，然后用强化学习的模式来对整个对话系统建模。

这篇文章尝试探讨在什么样的情况下，能够让机器人学习到类似人的语言。

文章的一个核心发现就是自然语言并不是自然出现的。

在目前的研究状态下，自然语言的出现还是一个没有确定答案的开放问题。

可以说这就是这篇最佳短论文的主要贡献。

接下来我来说一下论文的核心方法。

整篇文章其实是建立在一个虚拟的机器人交互场景里，也就是有两个机器人互相对话的一个环境。

这个环境里有非常有限的物件。

每个物件包括三种属性，分别是颜色、形状和样式。

每一个属性包括四种可能取值。

这样在这个虚拟的环境中，一共就有六十四个物件。

点击文稿。

可以看到一张图，能更加直观的了解交互任务，其实是两个机器人进行猜谜。

为了区分，我们把两个机器人分为q机器人和a机器人猜谜。

一开始的时候，a机器人得到一个物件，也就是三种属性的某种实现组合。

Q机器人并不知道这个物件，这个时候q机器人拿到两个属性的名字，需要通过对话，最终猜出a拿到的这个物件所对应属性的取值。

在这个游戏过程中，a是不知道q手上这两个属性究竟是什么的，而q也不知道a所拿的物件以及物件所对应属性的取值，因此对话就是q能够取得成功的关键因素。

在这篇文章里，q和a这个游戏通过强化学习进行建模，q保持一组参数，用于记录当前的状态。

这组状态有最开始需要猜的属性，以及后面到当前状态为止。

所有q的回答以及a的问题。

类似的a也保持这么一组状态，用于记录到目前位置的信息。

这个强化学习，最终的回馈是当最后的预测值，完全正确时会有一个正一的反馈，而错误的话就是负十的反馈。

Q和a的模型都有三个模块，听说和预测。

以q来举例，t模块是从要猜的属性，这个任务开始往后每一个步骤接受a的语句，从而更新自己的内部状态。

说模块是根据当前的内部状态，决定下一步需要说的语句。

最后，预测模块则是根据所有的状态预测最后的属性值。

A机器人的结构是对称的，每一个模块本身都有一个LSTM模型，也就是长短期记忆模型。

当然，所有这些LSTM模型的参数是不一样的，整个模型采用了reinforce算法来学习参数。

而具体的实现则采用了l torch软件包。

最后，我们来看作者们提出方法的实验效果。

在提出的方法上，作者们展示了q均能很快的以比较高的准确度做出预测，并且在和a的互动中产生了语言。

不过遗憾的是，通过观察作者们发现这样的语言往往并不自然。

最直观的一种情况就是a可以忽视掉q的各种反应，而直接把a的内部信息通过某种编码直接暴露给q,从而q可以很快赢得游戏，取得几乎完美的预测结果。

这显然不是想要的结果。

作者们发现，在词汇量非常大的情况下，这种情况尤其容易发生，那就是a把自己的整个状态都暴露给q于是作者们假定要想出现比较有意义的交流，词汇数目一定不能过大。

于是，作者们采用了限制词汇数目的方式，让词汇数目与属性的可能值和属性数目相等，这样就限制了在完美情况下交流的复杂度，使得a没有办法过度交流。

然而，这样的策略可以很好的对一个属性做出判断，但是无法对属性的叠加做出判断。

文章给出的一个解决方案是让a机器人忘记过去的状态，强行让a机器人学习使用相同的一组状态来表达相同的意思，而不是有可能使用新的状态。

在这样的限制条件以及无记忆的两种约束下，a和q的对话呈现出显著的自然语言的叠加性特征。

而且在没有出现过的属性上表现出了接近两倍的准确率，这是之前的方法所不能达到的效果。

今天我为你讲了EMNALP二零一七年的最佳短论文。

这篇文章介绍了在一个机器人对话系统中，如何能让机器人的对话更贴近人之间的行为。

这篇文章也是第一篇从谈话的自然程度，而不是从预测准确度去分析对话系统的论文。

文章的一个核心观点是，如果想让对话，自然就必须避免机器人简单的把答案泄露给对方，或者说要避免有过大的词汇库。

一起来回顾一下要点。

第一，我简要介绍了这篇文章的作者群信息。

文章作者在相关领域均发表过多篇高质量研究成果论文。

第二，这篇文章论证了多智能体对话中自然语言的出现并不自然。

第三，论文提出，在词汇量限制条件和无记忆约束下，机器人对话可以呈现出一定的自然语言特征。

最后给你留一个思考题。

文章讲的是一个比较简单的对话场景，有一个局限的词汇库。

如果是真实的人与人或者机器与机器的对话，我们如何来确定需要多大的词汇量呢？欢迎你给我留言，和我一起讨论。