-->

AI内参_30_029_ACL_2018论文精读什么是对话中的前提触发如何检测

你好,我是洪亮杰。

今天我和你分享的主题是ACL二零一八论文精读。

什么是对话中的前提触发如何检测?今天我来和你分享ACL二零一八的第二篇最佳论文,题目是检测副词前提触发词的第一种计算方法。

这篇论文的作者都来自加拿大麦吉尔大学的计算机系前三位。

学生作者是这篇论文的共同第一的,研对论文的贡献相同。

他们的导师张志杰助理教授是这篇论文的最后一个作者。

张志杰于二零一四年从多伦多大学博士毕业之前,曾两次在微软研究院实习过。

他长期从事自然语言处理的研究。

这篇论文的背景要从语用学说起。

语用学是语言学的一个分支学科,与符号学理论相互交叉研究。

这篇语境对语言含义产生的影响和贡献。

语用学包括言语行为、理论对话、内含义交流中的对话,以及从哲学、社会学、语言学以及人类学等角度解析人类语言行为的研究。

语用学分析研究语言行为,如招呼、回答、劝说的文化准绳和发言规则。

不同的文化之间皆有约定俗成、客套的对话。

在跨文化交流中,为了避免因为语言规范的差异,而在交谈之中,产生误解,社会语言学的知识与务实能力是语言学习者所不能忽视的。

在语用学中,前提是交谈的参与者共同约定的假设和认知,而且在谈话中被广泛使用。

假设在这篇论文中,作者们把提示前提的表达定义为前提,触发,包括一些动词、副词和其他短语。

为了更加清晰的说明这些概念,作者们举了这么一个例子。

假设我们现在有两句话,二约翰再次要去那家餐厅。

二约翰已经去过了那家餐厅。

第一句话要能够成立,必须要建立在第二句话的基础上,特别是前提触发词在的使用是建立在第二句话真实的情况下。

换句话说,第一句话必须在第二句话的上下文中才能够被理解。

值得一提的是,即便我们对第一句话进行否定,约翰不打算再去那家餐厅了,依然需要第二句话的支持。

也就是说,前提触发词在这里并不受到否定的影响。

这篇论文的核心贡献就是对以副词为主的前提触发词进行检测。

这里面包括在也和还等,在此之前还没有对这方面词汇进行检测的学术研究工作,能够对这类前提触发词进行检测,可以应用到文本的归纳、总结和对话系统等场景中。

为了更好的研究这个任务,作者们还基于著名的自然语言处理数据,penintry bank和english gigger word建立了两类前提数据集,从而能够进行触发词的分类检测工作。

最后,作者们设计了一个基于关注机制的时间,递归神经网络模型来针对前提触发词进行检测,达到了很好的效果。

现在我们来讨论这篇论文的一些细节。

首先我们来看看数据集是如何生成的。

数据中的每一个数据点都是一个三元词。

当别是标签信息正例还是复利文本的单词,文本单词所对应的词类触签或简称为POS标签。

例如动词名词数据点正例就表明当前数据包含前提触发词,反之则是复利。

另外因为我们需要检测的是副词性的前提触发词。

因此,我们还需要知道,这个词所依靠的动词作者们把这个词叫做副词的管理。

词作者们首先针对文档扫描看是否含有前提触发词。

当发现有前提触发词的时候,提取这个触发词的管理词,然后提取管理词前五十个单词以及管理词,后面的句子结束的所有的单词。

这就组成了正例中的单词。

当找到了所有的正例之后,作者们利用管理词来构建复利。

也就是说在文本中寻找哪些句子含有一样的管理词,但并不包括后面的前提触发词。

这样的句子就是复利。

下面我们来看一下作者们提出模型的一些构成。

从大的角度来说,为了识别前提触发,词作者们考虑了一个双向LSTM的基本模型架构。

在此之上有一个关注机制,在不同的情况下来选择LSTM的中间状态。

具体来说,整个模型的输入有两部分内容,第一部分是文本的单词进行了词向量的转换。

我们已经反复看到了,这是在自然语言处理场景中利用深度学习模型必不可少的步骤。

这样做的好处就是把离散数据转换成了连续的向量数据。

第二部分是输入这些单词,相对应的POS标签和单词。

不一样的是,POS标签依然采用了离散的特性表达,然后连续的词向量和离散POS标签表达合并在一起成了双向LSTM的输入。

这里利用双向LSTM的目的是让模型针对输入信息的顺序进行建模。

跟我们刚才提到的例子一样,前提触发词和其所依靠的动词在一个句子的段落中,很明显是和前后的其所依词有关联的。

因此,双向LSTM就能够达到对这个结构进行记忆的目的,并且提取出有用的中间变量信息。

下面需要做的就是从中间变量信息到最终的分类结果的变换。

这里作者们提出了一个叫加权池化网络的概念,并且和关注机制一起来进行这一步的中间转换。

可以说,这一步,作者们其实是借助了计算机视觉中的经常使用的卷积神经网络,CNN中的池化操作来对文档进行处理。

具体来说,作者们把所有LSTM产生的中间状态堆积成一个矩阵,然后利用同一个矩阵乘以其自身的转制,就得到了一类似于相关矩阵的新矩阵。

可以说,这个新矩阵是完全抓住了当前句子,通过LSTM中间变量转换后所有中间状态的两两关系。

然后作者们认为,最后的分类结构就是从这个矩阵中抽取信息而得到的。

至于怎么抽取,那就需要不同的权重。

这种根据不同的情况来设置权重的机制,就叫做关注机制。

经过矩阵中信息的抽取,然后再经过全连通层,最终就形成了标准的分类输出。

作者们在我们上面提到的两个新数据集上进行了实验,并且和一系列的方法进行了比较。

其他的方法包括简单的对数几率回归方法简化了的,但是依然利用了双向LSTM结构的模型。

还有一个利用CNN来进行提取信息的模型。

在两个数据集上,论文提出的方法比对数几率回归以及CNN的方法都要好百分之十到百分之二十左右,和简化的LSTM模型相比,优势并没有那么大,但依然有统计意义上的好效果。

今天我为你讲了ACL二零一八的另外一篇最佳论文,一起来回顾一下要点。

第一,这篇论文的背景是语用学,核心贡献是对以副词为主的前提触发词进行检测。

第二,论文的核心方法是提出一个双向LSTM的基本模型架构,并利用关注机制根据不同的情况来设置权重。

第三,论文构建了两个数据集,取得了较好的实验结果。

最后给你留一个思考题,这篇论文使用了双向LSTM的架构,能不能使用单向LSTM呢?欢迎你给我留言,和我一起讨论。