AI内参_127_121_计算机视觉领域的深度学习模型一AlexNet

你好，我是洪亮杰。

今天我和你分享的主题是计算机视觉领域的深度学习模型之一。

Alex net,我们继续来讨论基于深度学习的计算机视觉技术。

从今天开始，我们进入一个新的模块，我会结合几篇经典的论文，给你介绍几个专门为计算机视觉而提出来的深度学习模型。

这些模型都是最近几年的深度学习发展中起到了至关重要的作用。

我们这个系列要分享的第一篇论文题目是基于深度卷积神经网络的图像网络分类。

因为这篇文章的第一作者名字叫alex,所以文章提出的模型也经常被称为alex net.那接下来我们就先介绍一下这篇论文的作者群。

第一，作者就是亚历克斯克里切夫斯基发表这篇论文的时候，他在多伦多大学计算机系攻读博士学位之后的二零一三到二零一七年间，在谷歌认知继续从事深度学习的研究。

第二，作者叫伊利亚苏斯克维发表这篇论文的时候，苏斯克维也在多伦多大学的计算机系攻读博士学位，之后到斯坦福大学跟随吴恩达做博士后研究。

二零一三到二零一五年间，他在谷歌担任研究科学家一志。

二零一六年之后，他参与共同创立了open AI,并且担任研究总监。

这一职位。

苏斯克维在深度学习方面已经发表了很多篇论文。

目前论文的引用数已经超过七万次。

最后一位作者是杰弗里辛顿，对于辛顿我们就比较熟悉了，他是多伦多大学计算机系的教授，是机器学习，特别是深度学习的学术权威。

可以说，几十年来，辛顿都在以神经网络为代表的深度学习领域深耕。

即便是在其他学术思潮涌动的时候，他都能够坚持在深度学习这一领域继续钻研。

这种精神，让我们钦佩。

如何来描述这篇论文的主要贡献呢？简而言之，这篇论文开启了深度学习在计算机视觉领域广泛应用的大门。

通过这篇论文，我们看到了深度学习模型，在重要的计算机视觉任务上取得了非常显著的效果。

具体来说，在二零一一年的比赛赛中，文章提到的模型和第二名的方法相比，准确度要高出十多个百分点。

能够达到这个效果，得益于在模型训练时的一系列重要技巧。

这篇文训练了到当时为止最大的卷积神经网络络，而这技巧巧使得训练规规模使用级别的神经网络成为可能。

下面我们就聊聊模型的核心方法，要了解imagnenealex net的一些核心方法。

我们就需要简单提一下，imagine net竞赛的数据集。

这个数据集在当时有大约一百二十万张训练图片、五万张验证图片和十五万张测试图片，这些图片属于一千个类别。

这个数据集在当时说应该算是无争争议的大数技巧。

为了能够方便的处理这些图片，作者，我们所有图图片的辨率率都重新调整到了二五六乘以二五六alex net直接在这些图片的RGB像素点上进行建模。

整个模新的架构是怎样的呢？ Alex net一共包含了八层网络结构、五层全连通层，也就是前馈神经网络。

这八层网络架构总体来说是逐渐变小的一个趋势，也就是说每一层提取的信息越来越呈现高度的概括性。

那么在整个架构中，这篇文章提取的模型有哪些独到之处呢？第一，alex net采用了线性整流函数来作为激活函数。

虽然这个选择在今天看来可以说是非常平常，甚至已经成为了神经网络建模的默认选项。

但这个选择在当时还是很大胆的一种创新。

这个创新带来了训练时间的大幅度减少，同时还能保持甚至提升了模型性能。

第二，整个模型的训练大量采用了GPU,并且使用了多个GPU来进行计算。

那么这一点就在速度上和模型的大小上彻底解放了模型的选择。

以前仅仅利用单个GPU的方式，没办法把所有的训练数据都放入到一个GPU上。

第三，作者们介绍了一种叫做局部响应归一化的方法，来对每层之间的单元进行归一，如何进行最有效的归依，以及这些归一化有什么作用？这些问题一直都是深度学习研究面临的重要课题。

从实际的使用上来看，这种局部响应归一化的方法在几年之后让位给了其他更为主流的归一方法。

但是从这一个技术要点来看，我们要想把深度学习模型真正应用到实际场景，网务中，归一化是一个必不可少的组件。

第四，作者们在alex net里面使用了所谓的重叠池化。

这种方法在普通的卷积神经网络中，池化的作用是从周围的单元中总结出必要的信息。

一般来说，池化的过程中并不重复覆盖相同的单元，也就是说池化不会重叠。

而在这篇论文中，作者们发现重叠迟化能够降低错误率，虽然非常微量，但是很重要，这个组件在之后的发展中并不多见。

除了在网络架构上的一些创新之外，alex net的训练过程中，最需要注意的是防止过拟合。

在很长的一段时间里，我们没有办法把深度神经网络模型应用在实际场景中，一个很重要的原因就是过拟合。

可以说，如何防止神经网络模型过拟合这个问题，让研究人员伤透了脑筋。

所谓过拟合，就是说模型在训练集上工作的很好，但是无法泛化到测试集，也就是没有出现过的数据上无法泛化。

其实也就证明训练的模型对未知数据的预测能力很差。

这篇论文中主要提到了两种防止过拟合的方法。

第一种思路叫数据增强。

简单来说，这里的思路其实就是增加虚拟数据来增加数据的多样性，从而能够让模型更加健壮。

那二拟数据是怎么来的？虚拟数据其实来源于真实数据的变形。

第二种思路就是dropout,这种方法在当时看显得很随便，就是在训练的时候随机把一些单元置零。

作者们发现，在这样随机置零的过程中，模型会变得更加稳定。

值得一提的是，dropout已经成为了这几年深度学习的一个标配。

今天我为你讲了第一篇基于深度学习的经典论文，讨论了alex net这个模型。

这个模型开启了深度学习全面进军计算机视觉领域的时代。

一起来回顾一下要点。

第一，alex net模型在image net二零一二竞赛中胜出，让我们看到了深度学习模型在计算机视觉领域中所取得的显著效果。

第二，我们讨论了alex net模型的四大创新之处，以及论文提出的两种防止过拟合的方法。

最后给你留一个思考题，站在现在的立场。

Alex net在当时的成功是否给了你一些启发呢？欢迎你给我留言，和我一起讨论。