AI内参_19_018_The_Web_2018论文精读如何从文本中提取高元关系

你好，我是洪亮杰。

今天我和你分享的主题是the web二零一八论文精读。

如何从文本中提取高原关系？今天我们来看外文网大会二零一八年的最佳论文。

这篇文章介绍了如何从文本中提取高原关系，作者都来自德国著名的马克思普朗克计算机科学研究所。

这个研究所是德国最大的基础科学研究组织马克思普朗克学会的分支研究机构，致力于在科学刊物上发表新的研究成果。

开发软件系统和培养新的科学研究工作者马克思普朗克学会因其杰出的科研成果在德国，甚至全世界都获得了很高的声誉。

这篇论文主要涉及到高原关系的提取。

那什么是高原关系呢？传统的信息提取和知识库主要是关注二元关系的提取和存储。

例如，我们可以知道，居里夫人分别于一九零三年和一九一一年获得了诺贝尔奖。

但是关系数据库中并不知道，这两年的奖项分别是物理和化学例理。

我们可以在知识库中存放居里夫人，获得过诺贝尔物理学奖以及诺贝尔化学奖的信息，但是就无法和一九零三年和一九一一年这两个信息进行配对。

通过这个例子，我们可以看出，基于二元关系的信息提取和知识库虽然简单易行，但是有其先天的局限性。

这篇论文要讨论的高原关系，就是希望能够直接对居里夫人在一九零三年获得了诺贝尔物理学奖这样的三元甚至更高原的关系进行提取和表征。

作者们认为，这篇论文是作者们关注高原关系提取的先驱工作。

我们刚才说了这篇论文的一个重要贡献，就是针对高原关系的提取，做出了很多努力。

具体来说，作者们使用种子事实，做一种监督信息来学习模式，并且利用这些学习到的模式来寻找更多的候选事实如此循环。

这是把过去的一种针对二元关系提取的方法给扩展到高原关系上。

这个方法的潜在问题是在能够保证高召回的情况下，得到的很多关系可能存在噪声和目标浮动。

这里所说的目标浮动，指的是我们提取的事实，有可能存在主题上的偏差。

我了解决这个问题，作者们在这篇论文里利用了限制推理，来对已经得到的事实进一步筛选，以得到最后的结果。

这里的限制可以是类型上的，比如我们限制提取到的普利策奖为书籍，而非电影或音乐。

通过这些在取值或者类型上的限制，我们可以对获取到的事实进行清理。

论文解决的另外一个难点就是很多高原信息在原始的文本中就是缺失的，或者是不完全的。

比如，google于二零一四年收购了nest,这个事实就没有提及金额。

而google以三十二亿美元收购了nest,这个事实又没有提及时间。

作者们针对这个情况，把整个框架给扩展到了缺失信息中，从而能够从原始文本中拼凑多元关系。

那这篇论文的核心方法是怎样的呢？文章提出了一个由好几个组件组成的系统用于信息的提取。

首先有一个叫做NERD的组件及人名识别和去歧艺组件，用于从句子中提取不同的实体。

这里面运用到了很多外部的信息库，比如医疗生物实体库联合医疗语言系统、支持新闻实体的AIDA系统以及word net语料库。

同时，在这个部分，NERD还依赖于斯坦福自然语言处理核心库，提供人名识别以及词类分析等基础功能。

在提取了人名和实体名之后，作者们就开始构建一个从词类分析得到的树形数据结构。

这个数据结构的目的是反映n元关系和内部信息的架构。

这个部分基本上也是依赖传统的自然语言处理，所得到的树结构，只不过进行了简单的修正。

得到树结构之后，接下来的一系列工作就是在这个树结构上获取不同的模式，从而能够得到想要的高原关系。

这里面有很多细节，我们在这里就不赘述了。

比如，作者们利用树挖掘技术来发现频繁出现的子树结构，从而认定某个子树模式是不是一个好的候选事实。

这里的思路其实和经典的频繁模式挖掘一样，都是去不断计算一个结构的支持度和执行度，从而通过两个值来决定是不是要把这个模式给留下来。

除此以外，这一部分的部件还需要支持部分n元后候选事实的匹配。

之前我们也讲过了这个功能，也算是这篇论文的一个贡献。

这里面的重要职能就是能够对树的一部分结构进行匹配，而不需要对所有的部分都能够完全一致。

当作者们通过数挖掘，从而发现了基本的候选事实之后，下面需要做的工作就是针对这些候选事实进行推理盘查，看是不是所有的事实都能经得住推敲。

也就是说，我们需要查看有没有存在多个事实不一致的地方。

需要指出的是从整体上来看，所有组件的流程基本上都是无监督的数据挖掘操作。

也就是说整个系统并不需要依赖于什么训练数据。

下面我们来看看论文提出方法的实验效果。

作者们在纽约时报数据集以及pop mat数据集上都进行了实验，主要观测的指标是精度。

我们之前提到过这篇文章所研究的高原关系提取，这个问题很新颖。

因此，作者们还利用crod flower众包平台来获取了数据的标签，用于检测所提取关系的准确度。

当然，这部分数据量相对来说是比较小的。

从实验的效果上来说，文章提出的方法能够达到平均接近百分之八十到百分之九十的精度，这可以说是非常令人振奋的结果了。

而达到这样的结果，仅仅需要几百个种子事实。

今天我为你讲了今年万维网大会的优秀论文，文章，介绍了如何从文本中提取高原关系，这是一个比较新的研究领域。

一起来回顾一下要点。

第一，我们简单讨论了高原关系含义。

第二，我们简单介绍了论文的主要贡献和核心思路。

第三，我们简单分享了提出方法的实验成果。

最后给你留一个思考题。

在什么样的应用中，我们可以利用到这篇文章提出的高原关系呢？欢迎你给我留言，和我一起讨论。