AI内参_30_029_ACL_2018论文精读什么是对话中的前提触发如何检测

你好，我是洪亮杰。

今天我和你分享的主题是ACL二零一八论文精读。

什么是对话中的前提触发如何检测？今天我来和你分享ACL二零一八的第二篇最佳论文，题目是检测副词前提触发词的第一种计算方法。

这篇论文的作者都来自加拿大麦吉尔大学的计算机系前三位。

学生作者是这篇论文的共同第一的，研对论文的贡献相同。

他们的导师张志杰助理教授是这篇论文的最后一个作者。

张志杰于二零一四年从多伦多大学博士毕业之前，曾两次在微软研究院实习过。

他长期从事自然语言处理的研究。

这篇论文的背景要从语用学说起。

语用学是语言学的一个分支学科，与符号学理论相互交叉研究。

这篇语境对语言含义产生的影响和贡献。

语用学包括言语行为、理论对话、内含义交流中的对话，以及从哲学、社会学、语言学以及人类学等角度解析人类语言行为的研究。

语用学分析研究语言行为，如招呼、回答、劝说的文化准绳和发言规则。

不同的文化之间皆有约定俗成、客套的对话。

在跨文化交流中，为了避免因为语言规范的差异，而在交谈之中，产生误解，社会语言学的知识与务实能力是语言学习者所不能忽视的。

在语用学中，前提是交谈的参与者共同约定的假设和认知，而且在谈话中被广泛使用。

假设在这篇论文中，作者们把提示前提的表达定义为前提，触发，包括一些动词、副词和其他短语。

为了更加清晰的说明这些概念，作者们举了这么一个例子。

假设我们现在有两句话，二约翰再次要去那家餐厅。

二约翰已经去过了那家餐厅。

第一句话要能够成立，必须要建立在第二句话的基础上，特别是前提触发词在的使用是建立在第二句话真实的情况下。

换句话说，第一句话必须在第二句话的上下文中才能够被理解。

值得一提的是，即便我们对第一句话进行否定，约翰不打算再去那家餐厅了，依然需要第二句话的支持。

也就是说，前提触发词在这里并不受到否定的影响。

这篇论文的核心贡献就是对以副词为主的前提触发词进行检测。

这里面包括在也和还等，在此之前还没有对这方面词汇进行检测的学术研究工作，能够对这类前提触发词进行检测，可以应用到文本的归纳、总结和对话系统等场景中。

为了更好的研究这个任务，作者们还基于著名的自然语言处理数据，penintry bank和english gigger word建立了两类前提数据集，从而能够进行触发词的分类检测工作。

最后，作者们设计了一个基于关注机制的时间，递归神经网络模型来针对前提触发词进行检测，达到了很好的效果。

现在我们来讨论这篇论文的一些细节。

首先我们来看看数据集是如何生成的。

数据中的每一个数据点都是一个三元词。

当别是标签信息正例还是复利文本的单词，文本单词所对应的词类触签或简称为POS标签。

例如动词名词数据点正例就表明当前数据包含前提触发词，反之则是复利。

另外因为我们需要检测的是副词性的前提触发词。

因此，我们还需要知道，这个词所依靠的动词作者们把这个词叫做副词的管理。

词作者们首先针对文档扫描看是否含有前提触发词。

当发现有前提触发词的时候，提取这个触发词的管理词，然后提取管理词前五十个单词以及管理词，后面的句子结束的所有的单词。

这就组成了正例中的单词。

当找到了所有的正例之后，作者们利用管理词来构建复利。

也就是说在文本中寻找哪些句子含有一样的管理词，但并不包括后面的前提触发词。

这样的句子就是复利。

下面我们来看一下作者们提出模型的一些构成。

从大的角度来说，为了识别前提触发，词作者们考虑了一个双向LSTM的基本模型架构。

在此之上有一个关注机制，在不同的情况下来选择LSTM的中间状态。

具体来说，整个模型的输入有两部分内容，第一部分是文本的单词进行了词向量的转换。

我们已经反复看到了，这是在自然语言处理场景中利用深度学习模型必不可少的步骤。

这样做的好处就是把离散数据转换成了连续的向量数据。

第二部分是输入这些单词，相对应的POS标签和单词。

不一样的是，POS标签依然采用了离散的特性表达，然后连续的词向量和离散POS标签表达合并在一起成了双向LSTM的输入。

这里利用双向LSTM的目的是让模型针对输入信息的顺序进行建模。

跟我们刚才提到的例子一样，前提触发词和其所依靠的动词在一个句子的段落中，很明显是和前后的其所依词有关联的。

因此，双向LSTM就能够达到对这个结构进行记忆的目的，并且提取出有用的中间变量信息。

下面需要做的就是从中间变量信息到最终的分类结果的变换。

这里作者们提出了一个叫加权池化网络的概念，并且和关注机制一起来进行这一步的中间转换。

可以说，这一步，作者们其实是借助了计算机视觉中的经常使用的卷积神经网络，CNN中的池化操作来对文档进行处理。

具体来说，作者们把所有LSTM产生的中间状态堆积成一个矩阵，然后利用同一个矩阵乘以其自身的转制，就得到了一类似于相关矩阵的新矩阵。

可以说，这个新矩阵是完全抓住了当前句子，通过LSTM中间变量转换后所有中间状态的两两关系。

然后作者们认为，最后的分类结构就是从这个矩阵中抽取信息而得到的。

至于怎么抽取，那就需要不同的权重。

这种根据不同的情况来设置权重的机制，就叫做关注机制。

经过矩阵中信息的抽取，然后再经过全连通层，最终就形成了标准的分类输出。

作者们在我们上面提到的两个新数据集上进行了实验，并且和一系列的方法进行了比较。

其他的方法包括简单的对数几率回归方法简化了的，但是依然利用了双向LSTM结构的模型。

还有一个利用CNN来进行提取信息的模型。

在两个数据集上，论文提出的方法比对数几率回归以及CNN的方法都要好百分之十到百分之二十左右，和简化的LSTM模型相比，优势并没有那么大，但依然有统计意义上的好效果。

今天我为你讲了ACL二零一八的另外一篇最佳论文，一起来回顾一下要点。

第一，这篇论文的背景是语用学，核心贡献是对以副词为主的前提触发词进行检测。

第二，论文的核心方法是提出一个双向LSTM的基本模型架构，并利用关注机制根据不同的情况来设置权重。

第三，论文构建了两个数据集，取得了较好的实验结果。

最后给你留一个思考题，这篇论文使用了双向LSTM的架构，能不能使用单向LSTM呢？欢迎你给我留言，和我一起讨论。