AI内参_130_124_计算机视觉高级话题一图像物体识别和分割

你好，我是洪亮杰。

今天我和你分享的主题是计算机视觉高级话题之一，图像、物体识别和分割。

从今天开始，我们讨论几个相对比较高级的计算机视觉话题。

这些话题都不是简单的分类或者回归任务，而是需要在一些现有的模型上进行改进。

我们聊的第一个话题就是图像中的物体识别和分割。

我们前面介绍过物体识别和分割，通俗的讲就是给定一个输入的图像。

我们希望模型可以分析这个图像里究竟有哪些物体，并能够定位这些物体在整个图像中的位置，对于图像中的每一个像素，能够分析其属于哪一个物体。

这一类型的任务的目的是更加仔细的理解。

图像中的物体，包括图片分类，对图像里面的物体位置进行分析，以及在像素级别进行分割，这无疑是一个充满挑战的任务。

深度模型，特别是卷积神经网络CNN在alex net中的成功应用，很大程度上开启了物经网络在图像分类问题上的应用。

这之后，不少学者就开始考虑把这样的思想利用到物体识别上。

第一个比较成功的早期工作来自加州大学伯克利分校。

这就是我们接下来要介绍的RCNN模型。

首先，待CNN的输入是一个图片输出，是一个选定框和对应的标签。

Rcnn选用了一种直观的方法来生成选定框，尽可能多的生成选定框。

然后来看究竟每一个选定框对应的一个物体。

具体来说，针对图像RCNN先用不同大小的选定框来扫描，并且尝试把临近的具有相似色块类型、密度的像素都划归到一起去。

然后再利用一个alex net的变形，来对这些待定的选定框进行特征提取。

在模型的最后一层，RCNN加入了一个支持向量机，来判断带CN框是否是某个物体。

判断。

好了，选定框以后，RCNN在运行一个线性回归来对选定框的坐标进行微调。

Rcnn虽然证明了在物体识别这样的任务中，CNN的确可以超越传统的模型，但整个模型由多个模块组成，相对比较繁琐。

意识到RCNN的问题以后，一些学者开始考虑如何在这个模型上进行改进。

第一个重大改进来自于RCNN原文中的第一作者罗斯吉尔斯克、吉尔斯克这个时候已经来到了微软研究院。

他把自己待进的模型叫做fast RCNN. Fast RCN的一个重要特点就是观察到我们刚才介绍RCNN中的第二个步骤，也就是每一个待定的选定框都需要进行特征提取。

这里的特征提取其实就是一个特征，特点，往往非常消耗资源，而且很多待定的选定框，有很多重叠的部分可以想象，就会有很多神经网络的计算是重复多余的。

那么有没有什么办法，我们可以针对一个图片仅仅运行一次神经网络，但是又可以针对不同的待选定框共享呢？这其实啊就是fast RCNN的核心思想。

Fast RCNN的另外一个特点，也就是尝试用一个神经网络架构去替代RCNN中间的四个模块。

这样两个改进的结果是怎样的呢？ Fast RCNN和RCN相比，在效果上差不多，但是训练时间快了，九倍以上。

在fast RCN的技术上，一群当时在微软研究院的学者们把fast RCN的加速往前推进了时步，这就是模型fast RCNN faster RCNN是在如何提出待定的选定框上做了进一步的改进，使得这部分不依赖一个单独的步骤而依赖我们已经训练的CNN网络。

这在速度上比fast RNN又快了不少。

Faster RCN的基础上，mask RCNN不仅能够做到对图像中的物体进行判别，而且还能够做到像素级的抽取。

前面我们在讲二零一七年ICCV最佳研究论文的时候，介绍过这部分内容。

这里我带你做一个简单的回顾。

Faster RCN分为两个阶段。

第一个阶段是区域提交网络，目的是从图像中提出可能存在候选矩形框。

第二个阶段，从这些候选框中使用roy port这个技术术来提取特征，从而进行标签分类和矩形框位置定位这两个任务。

这两个阶段的一些特征可以共享区域提交网络的大体流程是什么样的呢？大体来说，最原始的输入图像经过经典的卷积层变换，其次形成了一个图像特征层。

在这个新的图像特征层上，模型使用了一个移动的小窗口来对区域进行建模。

这个移动小窗口有这么三个任务需要考虑。

首先，移动小窗口所覆盖的特征，经过一个变换，达到一个中间层。

然后经过这个中间层直接串联到两个任务，也就是物体的分类和位置的定位。

其次，移动的小窗口用于提出一个候选区域，也就是矩形框。

而这个矩形框也参与刚才所说的定位信息的预测。

当区域提交网络框出了物体的大致区域和类别之后，模型在使用一个物体检测的网络来对物体进行最终的检测。

Mask RCN的第一部分完全使用了faster RCN所提出的区域提交网络模型，对第二部分进行了更改。

那mask RCN的第二部分都输出什么呢？不仅仅输出区域的类别和框的相对位置，同时还输出具体的像素分割和很多类似工作的区别是像素分割、类别判断位置预测是三个独立的任务，并没有互相的依赖。

这是作者们认为musk RCN能够成功的一个重要的关键。

今天我为你讲了计算机视觉高级话题之一的物体识别和分割技术。

我们总结了从最早的RCNN到加速的fast RCNN和更快的faster RCNN,以及最后能够进行像素分割的mask RCNN,最后给你留一个思考题。

从这一系列模型的发展中，你能总结出一些心得体会吗？欢迎你给我留言，和我一起讨论。