AI内参_09_008_精读2017年ICCV最佳学生论文

你好，我是洪亮杰。

今天我和你分享的主题是精读二零一七年ICCV最佳学生论文。

周一，我们认真剖析了ICCV二零一七年的最佳研究论文。

Musk RCNN,今天我们来分享ICCV二零一七年的最佳学生论文，焦点损失用于密集物体检测。

可以说，这篇文章是我们周一分享的最佳论文的孪生兄弟。

首先，这篇论文的作者群也基本是facebook人工智能研究院的班底。

其次，这篇文章解决的问题也很类似，也是物体识别和语义分割，只是不解决数据点分割的问题。

我先来简要介绍一下作者群信息。

除第一作者外，这篇论文的作者都来自facebook的人工智能研究院。

第一作者，林苍毅，目前在谷歌大脑团队工作发表论文的时候，在facebook人工智能研究院实习。

林苍毅在台湾国立大学获得本科学位，在加州大学圣地亚哥分校获得硕士学位。

二零一七年刚从康奈尔大学博士毕业。

博士期间，他是从计算机视觉专家塞尔盖比隆基发表了多篇高质量的计算机视觉论文。

第二，作者，皮里亚高耶是facebook人工智能研究院的一名研究工程师。

在加入facebook之前，皮里亚从印度理工大学获得了学士和硕士学位。

第三作者，罗斯吉尔什克，第四作者何凯明，还有最后一个作者，皮奥特多拉。

这三位作者也是周一的最佳研究论文的作者。

我们已经介绍过了，你可以回去再了解一下。

接下来我们来看一下这篇文章的主要贡献。

刚才我们已经简单的谈到了这篇文章要解决的问题就是对输入图像进行物体识别和语义分割这两个任务。

对于这个问题有两种主要的发路，这两个思路都在不断的发展。

第一种思路，那就是直接从输入图像入手，希望能够从输入图像中提取相应的特征，从而能够直接从这些特征中判断当前的图像区域是否属于某个物体。

然后也能够一次性的找到矩形框的位置，用于定位这个物体。

这种思路虽然直观，但有一个致命的问题。

那就是对于一个输入图像来说，大量的区域其实并不包含目标物体，因此也就可以被认为是学习过程中的复力。

如何有效的学习这么一个不平衡的数据集，是这种思路需要考虑的问题。

因为这个因素，研究者们就开始思考另外一种思路，那就是先学习一个神经网络，用于找到一些候选区域，然后在第二阶段根据候选区域再去最终确定物体的类别和矩形框的含义。

在最近几年的实际评测中，基于两个阶段的模型，包括我们在上一篇分享中提到的faster RCNN以及其他变种一般都有比较好的表现。

从只基于一个阶段的模型。

在这篇文章发布之前，还不能达到两个阶段模型的水平。

本篇文章提出了一个新的目标函数，叫做焦点损失，用于取代传统的交叉熵的目标函数。

这个新目标函数的主要目的就是让一个阶段模型能够在正负力比例非常不协调的情况下，依然能够训练出较好的模型，从而使得一个阶段模型在效果上能够和两个阶段模型媲美。

同时，文章还提出了一种比较简单易用的深度网络结构，可以简单的训练出整个模型。

下面我们来讲一讲焦点损失的含义。

因为这是一个新的目标函数，建议还是阅读原文来理解这个目标函数的数学性质。

这里我们针对这个新的目标函数进行一个高度概括性的解释。

我们从普通的二分分类问题中，常用的交叉熵可以简称为c一目标函数。

说起。

首先我们认为模型预测类别是正立的概率是PC一目标函数，基本上可以认为是这个概率的对数的负数。

也就是在机器学习中经常使用的负对数似然。

模型的目的是最小化负对数似然，从而学习模型参数。

作者们观测到这么一个现象，那就是c一目标函数在p是一个比较大的数值的时候，比如大于零点五的时候依然会有一个损失。

什么意思呢？就是说某一个数值点，我们现在已经知道它可能是正立的可能性大于零点五了。

也就是我们其实已经大体知道这个结果了。

但是目标函数依然认为，学习算法需要对这个数据点进行作用，从而减少这个损失，这其实也是整个问题的核心。

那就是传统的CE.目标函数并没有指导机器学习算法用在应该使劲的地方，而是分散到了一些原本已经不需要再去关注的数据点上。

当然，这也就造成了学习困难的局面。

这篇文章提出的焦点损失对CE进行了一个看上去很小的改动，那就是在CE目标函数的负对数似然之前乘以一个相反函率的系数。

并且这个系数有一个指数参数去调节这个系数的作用。

如果你对这个内容感兴趣，建议你参考原论文查看细节。

如果对细节不感兴趣，那重点理解这个目标函数的作用就可以了。

焦点损失有两个性质。

第一，当一个数据点被分错类的时候，并且这个数据点的真实概率很小，那么损失依然和CE类似。

当一个数据点的真实概率趋近一，也就是原本算法就可以比较自信的时候，损失会相对于CE变小。

第二，刚才所说的系数起到了一个调节作用，决究竟需要对哪些容易分类的数据点降低损失到什么程度？文章在新的焦点损失的基础上，提出了一个新的网络结构，叫做retinini net使用一个阶段的思路，来解决物体窗测和语义分割的任务。

这里我简要概括一下retinina net的一些特点。

第一，rettina net使用了retinnet来从原始的输入图像中抽取基本的图像特征。

最二文章采用了一叫FPN的网络架构来或图图像的网分辨率或者不同大小的情况进行特性抽取。

第三和faster RCNN相似的retinina net也是用了anchor的思想，也就是说从小的一个移动窗口中去寻找一个比较大的矩形框的可能性。

最后，retinina net把从FPN抽取出来的特性性用于两个平行的网络结构，一个用于物体分类，一个用于矩形框的定位。

这一点类似两个阶段模型的做法。

最后我们来看方法的实验效效果。

作者们使用retinina net在目前流行的图像物体检测任务数据集coco上做了检测。

首先，retinina net的平均精度要好于之前的所有一个阶段。

模型初步验证了提出的目标函数和网络架构的优越性。

并且在实验中，作者们分别使用了不同的焦点损失指数参数，来展示这个参数对于结果的重要性。

同时，作者们还展示了RETINT能够比faster RCNN这种经典的两阶段模型以及一些变种，在实验结果上至少持平甚至要更好。

今天我为你讲了二零一七年ICCV的最佳学生论文。

这篇文章介绍了目前在图像物体识别中的最新目标函数焦点损失的大概内容。

一起来回顾一下要点。

第一，我们简要介绍了这篇文章的作者群信息。

第二，我们分析了这篇文章要解决的问题和主要贡献。

第三，我们详细介绍了文章提出方法的核心内容，最后给你留一个思考题。

第了这篇文章介绍的更改目标函数的方法，针对不平衡的数据集，你觉得还有哪些通常使用的方法？欢迎你给我留言，和我一起讨论。