引言:
随着科技与经济的发展,环境侦查、自动驾驶、道路检测等技术愈发收到人们的追捧。在这些技术中,地表分类的算法研究成果不可或缺,也正是在地表分类算法的基础上,才能发展这些高端的技术。随着需求的不断发展,经典的传统算法已经不能满足人们对于高精度、高效率的需求。为了能够更快、更准、更方便的进行地表分类,机器学习算法与卷积神经网络代替了传统算法。那目前为止,已经提出和发展了众多基于神经网络与深度学习的地表分类算法。
- 卷积神经网络的发展
卷积神经网络(Convolutional Neural Network, CNN)是一种常见的深度学习网络架构,受生物自然视觉认知机制启发而来。在各种类型的神经网络当中,卷积神经网络是得到最深入研究的。早期由于缺乏训练数据和计算能力,卷积升级网络在运行过程中往往会出现过拟合的现像。后来,随着ImageNet这样的大规模标记数据的出现和GPU计算性能的快速提高,使得对卷积神经网络的研究进入了高速发展的阶段。CNN的现代结构最初由LeCun et al.[1]等人在二十世纪九十年代发表的论文中提出并完善。在论文中他们设计了一种名为LeNet-5的多层人工神经网络,可以分类手写数字。并且和其他神经网络一样,能使用反向传播训练。然而,由于当时缺乏大规模训练数据,且计算机计算能力不足,LeNet-5无法有效地处理大规模数据。为了突破CNN无法进行深度训练的瓶颈,人们设计大量的模型。其中最著名的莫过于Krizhevsky et al.提出的AlexNet[2]模型,该模型凭借着远远超过他人的训练速度与最低的错误率获得了2012年ImageNet竞赛冠军。AlexNet同时使用了非线性激活函数ReLu[3]与Dropout[4]方法,证明了CNN在复杂模型下的有效性,并且通过GPU的实现使得训练在可接受的时间范围内得到结果,掀起了卷积神经网络的研究热潮。
在这之后,人们对卷积神经网络进行了各式各样的研究,提出了许多各具特色的模型。从模型结构中来说,CNN主要的一个研究方向就是增加神经网络的层数,通过更深层次的学习提高神经网络的准确性。其中的佼佼者便是ResNet[5]。除此之外,还有许多著名的模型,比如:ZFNet [6],VGGNet [7],GoogleNet [8]等。ZFNet对AlexNet的改进首先在第一层的卷积核尺寸从11x11降为7x7,同时将卷积时的步长从4降至2。通过使用可视化技术揭示了神经网络各层到底在干什么,起到了什么作用,使得人们能更好的发现潜在的问题与降低局部信息对学习效果的影响。VGGNet将网络的深度扩展到了19层,并且在每个卷积层使用了3x3这种小尺寸的卷积核,每组卷积后进行一个2*2最大池化,在训练高级别的网络时,可以先训练低级别的网络,用前者获得的权重初始化高级别的网络,大幅加速网络的收敛。与ZFNet与VGGNet都是对AlexNet的改良不同,GoogleNet [8]则是进行更大胆的对网络的尝试,提出了名为Inception的网络架构,通过在不同深度增加2个loss来避免梯度消失的问题,增加了 1x1的卷积核来降低计算的复杂度,获得了更高的准确率与更快的收敛速度。
- 地表分类算法的选择
对于许多视觉识别、图像分类的深度学习模型而言,神经网络的深度是至关重要的。因为更深的层数能够提取图像中更多的特征,提取的特质越丰富,越具有语义信息,能够更好地进行分类识别。但是对于绝大部分模型来说,增加深度往往会导致对训练集的效果饱和乃至下降的情况(退化现象),并且这不是过拟合导致的(过拟合应该使模型对于训练集的效果更好)。退化现象的出现也使人们难以通过提高层数来提升对图像的特征提取能力,而学习过程中也会产生梯度爆炸/梯度消失[9]的现象,极大的阻碍了卷积神经网络的收敛。
为了解决这一问题,提高卷积神经网络提取特征的能力,Kaiming He等人提出了ResNet模型。ResNet模型采用BN[10]来初始化网络权重,通过DSN[11]解决梯度问题。最重要的部分为在网络层中添加shortcut[12],将之前网络层的部分输出保留(形成残差),将这部分输出作为原始信息直接传入下一层而不是作为学习数据。如果只是单纯地添加将shortcut作为恒等映射,那么学习效率并不会因为深度增加而发生太大改变,那么只需要去拟合恒等函数,就可以解决退化问题。但是直接拟合恒等函数相当困难(这可能就是深度学习模型难以训练的原因),所以作者设计了残差函数,使得恒等函数可以进行线性拟合,且依然可以达到端到端的反向传播。因为通过shortcut直接传递网络层输出,传递的参数大大减少,学习速度远超其他模型,同时,提升的网络深度也大幅增加了分类效果,给卷积神经网络带来了新的研究发现。
在实际的野外图像中,往往存在着多种类型的地表图像。但是只着眼于纹理细节的识别模型基本只能适用于类型单一的纹理材质,图像中很少会被均匀的纹理表面填满,很容易降低模型分类能力。Hangzhang提出了深度编码池网络DEP[13],通过扩展FV-CNN[14]与ResNet,并将编码层(Encoding Layer[15])和已有的深度学习结构兼容,
捕获图像关键局部空间特征,生成了图像的语义信息,将图像的空间结构与纹理特征
相结合。并且通过双线性CNN[16]简化了梯度计算,实现了端到端的纹理材质识别,获得了不错的训练效果。
- 现状分析
图像特征的提取与分类一直是计算机视觉领域的一个基础而重要的研究方向。卷积神经网络提供了一种端到端的学习模型,模型中的参数可以通过传统的梯度下降方法进行训练,经过训练的卷积神经网络能够学习到图像中的特征,并且完成对图像特征的提取和分类。作为神经网络领域的一个重要研究分支,卷积神经网络的特点在于其每一层的特征都由上一层的局部区域通过共享权值的卷积核激励得到。这一特点使得卷积神经网络相比于其他神经网络方法更适合应用于图像特征的学习与表达。
