AI内参_117_112_什么是文档情感分类

你好，我是洪亮杰。

今天我和你分享的主题是什么？是文档情感分类。

到目前为止，我们讲完了对话系统的基础知识。

一般来说，对话系统分为任务型和非任务型这两种基本类型。

针对任务型对话系统，我们重点介绍了其各个组件的工具，以及这些组件都有哪些模型给予支撑。

针对非任务型对话系统，也就是聊天机器人。

我们主要介绍了如何利用深度学习技术来对一个聊天机器人进行建模，以及非任务型对话系统所面临的挑战都有哪些？今天我们转入文本分析的另外一个领域，同时也是在实际系统中经常会使用的一个子领域，那就是文本情感分析。

所谓情感分析，就是指我们要针对一段文本来判断这段文本的文字色彩到底是包义还是贬义，到底是抒发了什么情感文本？情感分析是一个非常实用的工具。

比如，我们需要分析用户对于商品的评价，来对什么样的情感，从而能够更好的为商品的推荐和搜索结果服务。

再比如，通过文本的情感分析，我们可以了解到用户针对某一个实施的观点、异同以及观点分歧在什么地方，从而能够更加清晰的了解新闻的舆情动态。

今天我们首先从最基础的文档情感分类这个问题说起。

文档情感分类属于文本情感分析中最基本的一种任务。

这种文务的假设是一段文本的作者，通过这段文本是想对某一个实体表达一种情绪。

这里的实体其实包括很多种类型的对象，比如可能是商品某个事件，也可能是某个人物。

我们这里讨论的文本单元可以是一个文档，也可以是一个句子等其他的文本段落。

值得注意的是，我们在这一类任务中限制一个文本单元，只表达或者主要表达一种情感。

很明显这种假设是比较局限的。

一般来说，在实际的应用中，一个文本单元，特别是比较长的单元，例如文章则往往包含多于一种的情绪。

因此，我们可以看到，文档情感分类其实是一种简化了的情感分析任务。

同时，一个文本单元还可能对多个实体进行情感表达。

比如一个用户针对某种款式，相机的多个方面进行了评价。

那么每一个方面都可以作为一个事体。

而这种时候，用户的情感可能就更难，仅以一种情感来加以概括了。

在最基本的文档情感分类的情况下，我们往往把这类任务转化成为一种监督学习任务。

也就是说，我们希望通过一个有标签的训练集学习到一个分类器或者回归模型，从而能够在未知的数据上预测用户的情感。

这里往往有两种形式的监督学习任务，一种是把文档分类为几种，最简单的情况下是两种情感，这就是二分或者多类分类问题。

另外一种则是认为文档会有一种情感，但是每一种情感之间有好坏的顺序区分，比如评分好就比一般问题。

也就是说，这些评分之间有一个次序问题，那么很多时候这种问题会被归结为一种次序回归问题。

在明确了我们需要构建什么样的监督学习任务以后，对于这些任务而言，如何选取特性就是一个很重要的工作了。

诚然，对于每一个具体的任务而言，我们往往需要选取不同的特性。

但是在过去的很多事实践中，经过反复验证，有一些特性可能会有比较好的效果。

我在这里做一个简单的总结。

首先，我们曾多次提到过的词频以及更加复杂一些的TFIDF词，权重法，都是经常使用的文字特性。

在文档情感分类中，这类特性被认为非常有效。

另外一种使用的比较频繁的特性就是词类。

此类提供的句子中，每个词的成分，比如哪些词是动词，哪些词是名词等等。

这些词性可以跟某种特定的情感有很密切的联系。

还有一种很直观的特性，就是情感词汇。

比如我们已经知道了好不错等词，表达了正向的情感。

而差不好、不尽人意等词表达了负向的情感。

我们可以事先收集一个这类情感学习的集合。

这个集合的词汇可以跟最后文档的情感有很直接的联系。

最后，需要指出的是，如何开发一个合适的特性，往往是文档分类的重点工作。

除了特性以外，在文档情感分类这个任务中，传统上经常使用的文字分类器有朴素、贝叶斯分类器、支持向量机等情感词汇，已经成为我们对大段文字乃至整个文档的分类有了很强的指导意义。

因此，也有一些方法寻求利用非监督学习的方式来对文档进行情感分类。

注意，这里所谓的非监督学习，是指我们并不显示的学习一个分类器。

也就是说不存在一个训练数据集，不需要我们提前收集数据的标签。

这类思想的核心，其实就是涉及一套打分机制来对整个文做一种粗浅的判断。

当然，这种打分机制背后都有一种理论来支撑。

比如有一种打分模式，依靠首先识别的词类进行分析，特别是大量的相邻的两个词的词性注入特别好。

这里特别是副词好是形容词，然后就可以得出在某些情况下啊，副词和形容词的这种搭配特别多的时候，并且在正向的情感词比较多的时候，整个文档也许就是比较偏向正向的情感。

我们首先要指出的是，这种方法虽然听上去比较山寨，但是对于很多产品和项目来说，获取大量高质量的标签信息，往往是非常耗时，甚至是不可能的。

例如上百万的用户对产品的评价数据。

因此，在没有训练数据的情况下，利用某种打分机制，可以通过最简单的一些情感词库，开发出文档情感分类的算法，这其实也不失为一种快速迭代的方式。

今天我为你介绍了一类基础的文字情感分析任务、文档情感分类的基本技术要点，一起来回顾一下要点。

第一，我们讲了基于监督学习的文档、情感分类任务以及这类任务下的重要特性和模型。

第二，我们聊了如何在没有大规模训练数据的基础上，进行非监督的文档情感分类，最后给你留一个思考题。

如何把文档情感分类任务扩展到可以针对多种实体多种情感的分析呢？欢迎你给我留言，和我一起讨论。