AI内参_118_113_如何来提取情感实体和方面呢
你好,我是洪亮杰。
今天我和你分享的主题是如何来提取情感实体和方面呢?从上一篇分享开始,我们转入文本分析的另外一个领域。
文本情感分析也就是指我们要针对一段文本来判断其文字色彩、文本情感分析是一个非常实用的工具。
我们从基础的文档情感分类这个问题说起,这个任务是把一个单独的文档给分类为某种情感。
在绝大多数情况下,我们可以把这个任务看作监督学习的问题。
另外我们也聊了聊如何通过建立情感词来进行简单的非监督学习的步骤。
今天我们就来看一看文本情感分析中的另一个关键技术情感实体和方面的提取。
对于文本情感分析而言,实体和方面是两个非常重要的概念。
很多情感分析的任务都是围绕着这两个概念而产生的。
在谈论如何对这两个概念提取之前,我们先来看看这两个概念的意义。
实体其实就是文本中的某一个对象,比如产品的名字、公司的名字、服务的名字、个人事件、名字等等,而方面则是实体的某种属性和组件。
比如这么一个句子,我买了一部三星手机,它的通话质量很不错。
在这里三星手机就是一个实体,而通话质量则是一个方面,更进一步,很不错,则是一个情感表达。
这里是针对三星手机这个实体的通话质量,这个方面很明显。
如果我们要想精准的对文本的情感进行分析,就一定得能够对实体和方面进行有效提取。
从广义的范围来说,实体和方面的提取都属于信息提取的工作,这是一个非常大的任务类别,用于从大量的非结构化文本中提取出有价值的信息。
实体和方面的提取可以一个句般性的信息提取技术。
当然往往也可以利用句子中的信息特殊技术。
接下来我们来聊一聊有哪些最直观最简单的提取技术。
第一种最简单的技术是基于频率的提取。
在这样的技术中,我们先对文本进行词类分析,分析出每个词的词性。
然后主要是针对句子中的名词计算这些名词出现的频率。
当这些频率达到某一个阈值的时候,我们就认为这些名词是一个实体或者方面。
这里的假设是在一个例如产品评论的文本集合中。
如果一个名词反复出现在这个集合的很多文档中,那么这个名词很有可能就是一个独立的实体或者方面。
为了达到更好的效果,更加复杂的词频技术,例如TFIDF也经常被用在计算名词的频率上,从而提取他们作为实体和方面的候选词。
另一种比较常见的针对于情分析开发的技术,就是是用句句中的一些特殊殊结构构,而达达信信息取取目目。
比如如到刚才才的个对,就其可以以部三手机机的的通质质量很不错,这句句中很不错。
作为一个情感词汇,一定和某一个个方面至是某一一个实体对出出现的么?这个个个描现的一象象,就我我们可利用用情感句子的有利特征,比如很不错,这个词汇汇一个描述产品情情的的文中,这个个是个一个一个出现。
这里不管包包还是贬感感词汇出现,现在绝大多数情况下,他们都会描述一个对象象。
从我法结构构上来说,这个对象往往有离这个感词汇很近,因为这个情感词需要对这个对象象进出现现,因此我们就可以利用这配配结果。
因此我可可否这样的结构出出出现,这种结构其实可以被反复用用。
例如,在刚才句句子中,三星手及这个实体一定会和很多不同的方面反复同时出现,如通话质量、操作、售后服务等。
我们可以利用这两种不同的配对结构、实体和方面之间的方面和情感词之间的更好的提取这些词汇。
刚才我们说的,不管是基于磁频的,还是利用配对关系的方法,都可以算是无监督的学习方法。
这些方法的本质,其实就是利用某种之前定义好的规则或者是某种洞察来针对文本进行提取。
另外一种思维其实就是把信息提取转换成为监督学习任务。
回答例子,我买了一部三星手机,它的通话质量很不错。
这句话这句话的文本作为输入,我们需要的输出是三星手机,是实体通话质量是方面这样的标签信息。
那么一个基本的想法就是我们其实可以针对这句话构建一些特征,然后学习出一个分类器,从而可以得到这样的标签。
值得注意的是,这类监督学习任务和我们常见的,例如分类一个文档,是不是垃圾信息不一样?这里我们需要输出多个标签,这种需要输出多个标签的任务,特别是这些标签之间可能还有一定关系的情况,往往被称作是结构化预测任务。
另结构化预测,这个领域条件,随机场或者简称是CRF的模型,是对这方面任务进行运作的一个经典模型。
然而,需要指出的是,把实体和方面提取当做监督任务以后,很明显我们就需要有一个训练集和标签。
这个训练集的匮乏常常成为CRF产生理想效果的瓶颈。
今天我为你介绍了一类基础的文字情感分析任务、情感实体和方面的提取,一起来回顾一下要点。
第一,我们介绍了什么是情感实体和方面。
第二,我们聊了目前在这个方向上比较通行的一些方法,比如基于频率的提取,利用句子的一些特殊结构等。
最后给你留一个思考题。
除了我们介绍的这些方法,你还能想到其他方法来提取实体和方面的关键词吗?欢迎你给我留言,和我一起讨论。