AI内参_08_007_精读2017年ICCV最佳研究论文

你好，我是洪亮杰。

今天我和你分享的主题是精读。

二零一七年，ICCV最佳研究论文国际计算机视觉大会ICCV是每两年举办一次的计算机视觉，顶级论议从一九八七年开始举办，已经有三十年历史。

二零一七年的ICCV大会于十月二十二号到二十九号在意大利的水城威尼斯举行。

在每届ICCV大会上都会从众多学术论文中挑选出两篇最有新意和价值的论文，作为最佳研究论文和最佳学生论文，ICCV的最佳论文奖，又叫做马尔奖项，是为了纪念英国的心理学家和神经科学家大卫马尔。

而设计的奖项，马尔将心理学、人工智能和神经生理学的研究成果结合起来，提出了全新的关于视觉处理的理论。

他被认为是计算神经科学的创始人。

今天我就来带你认真剖析一下ICCV二零一七年的最佳研究论文。

Musk RCNN这篇论文是一个集大成的工作，介绍了一个新的方法，可以用于同时解决图像的物体识别、语义分割和数据点分割的工作。

什么意思呢？通俗的讲，那就是给定一个输入的图像。

利用这篇论文提出的模型，可以分析这个图像里究竟有哪些物体，比如是一只猫还是一条狗，同时能够定位这些物体在整个图像中的位置，并且还能针对图像中的每个像素，知道其属于哪一个物体。

他就是我们经常所说的，把物体从图像中抠出来。

我先来介绍一下作者群信息，这篇论文的作者全部来自facebook的人工智能研究院。

第一，作者就是近几年在计算机视觉领域升起的学术之星何凯明博士。

他于二零一六年加入facebook人工智能研究院，之前在微软亚洲研究院进行计算机视觉的研究工作。

他还是CVPR二零一六年和CVPR二零零九年的最佳论文得主。

目前，何凯明在计算机视觉领域有三项重大贡献。

第一，他与其他合作者发明的res net从二零一六年以来成为了计算机视觉深度学习架构中的重要力量，被应用到了计算机视觉以外的一些领域，比如机器翻译和阿尔法go等，相关论文引用数超过五千次。

第二，他与其他合作者开发的faster RCNN技术发表于NIPS.二零一五上是图像、物体识别和语义分析的重要技术手段，也是今天我们要讨论的这篇论文的基础论文引用数超过两千次。

第三，他与其他合作者在ICCV二零一五年发表论文，深入研究整流器，在image net分类上超越人类水平，研究了一种改进的软路结构，从而达到了更好的效果。

论文引用数数近千千第二作者乔治亚吉克里奥夏里，目前是facebook人工智能研究员的博士后研究员。

乔治亚可以说是实出论文，在facebook工作之前，才从加州大学伯克利毕业，师从计算机视觉泰斗、吉腾德拉马利克。

乔治亚之前还分别在谷歌大脑和谷歌研究院实习过。

在过去几年中，乔治亚在计算机视觉界已经发表了多篇高质量论文。

第三，作者，皮奥特多拉是facebook人工智能研究院的一名经理，二零零七年从加州大学圣地亚哥分校获得博士学位，二零一四年加入facebook,这之前在微软研究院工作。

皮奥特长期从事计算机视觉的研究工作。

最后一个作者，罗斯吉尔什克是facebook人工智能研究院的一名科学家。

他于二零一二年毕业于芝加哥大学获得计算机博士，罗斯之前也在微软研究院工作，也曾在计算机视觉泰斗吉腾德拉的实验室里担任博士后的研究工作。

我们首先来看一下这篇文章的主要贡献，还是要先去理解这篇文章主要解决的是一个什么场景下的问题。

刚才我们已经简单的谈到了这篇文章要解决的问题就是对输入图像的物体识别、语义分割以及数据点分割是这三个任务的一个集成。

在之前的一个工作中，也就是faster RCNN已经解决了前两个任务。

那么这篇论文其实就是faster RCNN在逻辑上的一个扩展。

然而，这个扩展也并不是那么显而易见的。

为了解决数据点分割的任务，mask RCNN提出了深度学习网络结构上的一个创新，这是本篇论文的一个重要贡献。

本文提出的模型不仅在数据点分割的标准数据集coco上表现强劲，击败所有之前提出的模型之外，还能够很容易的扩展到其他的任务中。

比如人体形态估计，从而奠定了musk RCNN作为一个普适性框架的地位。

下面呢我们来看论文的核心思想。

刚想理解mask RCNN的核心思想，我们就必须先前要理解faster RCNN的一些基本原理。

刚才说到了musk RCNN,就是在其之上的一种改进和延伸。

Faster RCNN对于每一个输入图像中的每一个候选物体都会有两个输出，一个是候选物体的标签，比如猫狗、马等。

还有一个就是一个矩形框用于表达这个物体在图像中的位置。

第一个标签输出是一个分类问题。

而第二个位置预测则是一个回归问题。

Faster RCNN分为两个阶段，第一个阶段叫做区域提交网络，目的是从图像中提出可能存在候选矩形框。

第二个阶段，从这些候选框中使用一个叫做ROI pro的技术来提取特征，从而进行标签分类和矩形框位置定位这两个任务。

这两个阶段一些特性可以共享区域提交网络的大体流程是这样的。

最原始的输入图像经过经典的卷积层变换之后，形成了一个图像特征层。

在这个新的图像特征层上，模型使用了一个移动的小窗口来对区域进行建模。

这个移动小窗口有这么三个任务需要考虑。

首先，移动小窗口所覆盖的特征经过一个变换，达到一个中间层，然后经过这个中间层直接串联到两个任务，也就是物体的分类和位置的定位。

其次，移动的小窗口用于提出一些后候选区域，有时候叫做ROI,也就是矩情框。

而这个剧情框也参与刚才所说的定位信息的预测。

当区域提交网络框出了物体的大致区域和类别之后，模型在使用一个物体检测的网络来对物体进行最终的检测。

在这里，物体检测实际是使用了fast RCN的架构。

所以也就是为什么faster RCN的名字里，用faster来做区分faster RCN的贡献。

在与区域提交网络和fast RCN的部分，也就是物体检测的部分达到了共享参数，或者叫共享网络架构。

这样也就起到了加速的作用。

Master RCN在第一部分完全使用faster RCN所提出的区域提交网络。

在此基础上，对第二部分进行了更改。

也就是说，不仅仅在第二部分输出区域的类别和框的相对位置，同时还输出具体的像素分割。

然而，和很多类似工作的区别是，像素分割、类别、判断置预测是三个独立的任务，并没有互相的依赖。

这是作者们认为mask RCNN能够成功的一个重要关键。

对比之前的一些工作像素分割成了类别判断的特征，从而导致这几个任务之间互相干扰。

Mask RCNN在进行像素分割的时候，因为要在原始的图像上进行干扰。

最此，需要在整个流程中保留原始图像的位置关系。

这个需求是类别判断和位置预测所不具备的。

而在faster RCNN中，因为不需要这个需求，因此类别判断和位置预测所依赖的信息是一个压缩过后的中间层。

那么很明显，mask RCNN依靠这个压缩层就不够了。

在这篇文章中，作者们提出了一个叫做ROI aline的技术，来保证中间提取的特征能够反映。

在最原始的像素中，如果对这部分内容感兴趣，建议你去细读文章。

最后，我们来看方法的实验效果。

作者们使用mask RCNN在目前流行的图像物体检测任务数据集coco二零一五和coco二零一六上做了检测。

相对于之前的这两个竞赛的冠军实验结果表明，msk RCN的精度都大幅度增加在一个平均精度的度量上，msk RCNN比coco二零一五的最佳结果好了近百分之十三。

而比coco二零一六的最佳结果好了百分之四，可以说效果非常明显。

在实验结果中，作者们非常细致的测试了整个musk RCNN中每一个部件的效果。

其中把三个任务分开以及ROI alan方法都有非常显著的作用，证明了这些模型组件是优秀结果的必要步骤。

今天我为你讲了ICCV二零一七年的最佳研究论文。

这篇文章介绍了目前在图像物体识别中的最新算法mask RCAN的大概内容。

一起来回顾一下要点。

第一，我们简要介绍了这篇文章的作者群信息。

第二，我们详细介绍了这篇文章要解决的问题以及贡献。

第三，我们简要的介绍了文章，提出方法的核心内容。

最后给你留一个思考题。

你觉得为什么mask RCNN包括之前的一些工作，要把物体检测的工作分为两步。

第一步先分析一个大的矩形框，第二步进行物体检测，这两步都是必要的吗？欢迎你给我留言，和我一起讨论。