1.3 经典卷积神经网络

1.3.1 AlexNet

AlexNet(出自论文ImageNet Classification with Deep Convolutional Neural Networks)是Hinton和他的学生Alex Krizhevsky在2012年ImageNet竞赛中使用的模型结构,刷新了 Image Classification 榜单。从此,深度学习方法在图像领域开始一次次超过state-of-art,甚至达到超越人类的地步。图1.8所示为AlexNet架构图。AlexNet总共包括8层,其中前5层为卷积层,后3层为全连接层。AlexNet在原始论文中说明,如果减少任何一个卷积层,那么结果会变得很差。下面具体介绍AlexNet的元素构成。

第1层卷积层:输入为图像,首先使用96个卷积核进行卷积操作,并以4为步长来右移或下移;然后进行最大池化(Max-Pooling),池化尺寸=(3,3),步长为2,得到输出特征的形状为96×55×55。

第2层卷积层:首先使用填充尺寸=2的操作对上一层得到的特征图进行填充;然后使用256个卷积核进行卷积操作,以1为步长移动;最后进行最大池化,池化尺寸=(3,3),步长为2,得到输出特征的形状为256×27×27。

第3层卷积层:使用384个卷积核进行卷积操作,步长为1,得到输出特征的形状为384×13×13。

第4层卷积层:首先使用填充尺寸=1的操作对上一层得到的特征图进行填充;然后使用384个卷积核进行卷积操作,步长为1,得到输出特征的形状为384×13×13。

第5层卷积层:首先使用填充尺寸=1的操作对上一层得到的特征图进行填充;然后使用256个卷积核进行卷积操作,步长为1,得到输出特征的形状为256×13×13;最后进行最大池化,池化尺寸=(3,3),步长为2,得到输出特征的形状为256×13×13。

全连接层:前两层分别有4096个神经元,最后输出Softmax为1000个(ImageNet有1000个类别)。

图1.8 AlexNet架构图