1.2 国内外研究现状
在深度学习技术流行之前,高分辨率遥感图像场景分类主要基于手工特征,其中以CH(Color Histogram,颜色直方图)、SIFT(Scale Invariant Feature Transform,尺度不变特征变换)、GIST等经典的手工特征为主。但在设计手工特征时需要大量的先验知识,费时费力且效果较差。为了获得更高的场景分类精度,后续出现了手工编码特征。该类方法的主要思想是,在手工特征的基础上对图像进行进一步抽象。最为典型的手工编码特征是BoVW(Bag of Visual Words,视觉词袋)模型。BoVW首先对图像提取到的局部手工特征进行聚类,从而获得一个“词袋”,然后利用“词袋”对图像进行编码得到一个特征直方图,以此作为图像更高层次的特征描述。众多场景分类方法采用BoVW或BoVW的改进模型,主要包括SPM(Spatial Pyramid Matching,空间金字塔匹配)、SCSPM(Sparse Coding Spatial Pyramid Matching,稀疏编码空间金字塔匹配)等。虽然手工编码特征可以提高分类精度,但其本质仍是手工特征,依然存在泛化能力弱、分类精度低等缺点。
近几年,随着深度学习技术的快速发展,基于深度学习的高分辨率遥感图像场景分类方法逐渐成为领域内的主流。按深度学习模型训练监督方法的不同,此类方法可分为三类:① 基于全监督深度学习的遥感图像场景分类方法;② 基于半监督深度学习的遥感图像场景分类方法;③ 基于弱监督深度学习的遥感图像场景分类方法。下面简要介绍这三类方法。
1.基于全监督深度学习的遥感图像场景分类方法
在此类方法中,用于场景分类模型训练的所有样本都有相应的完全标注。目前,基于深度学习的高分辨率遥感图像场景分类方法大多都可以归为此类方法。下面对其中的几种经典方法进行介绍。
(1)主题模型和深度学习相结合的场景分类方法。Zhu等人提出了一个ADSSM框架,将主题模型和卷积神经网络(Convolutional Neural Nets,CNN)相结合,充分利用遥感图像场景的多级语义,在语义层次上有效地融合了稀疏主题特征和深层特征,有效地提升了特征的表征能力,并以此达到更高的分类水准。其他基于主题模型的方法包括Zhao等人提出的方法。
(2)Cheng 等人将深度学习与度量学习相结合,提出了一种新的损失函数来训练融合后的深层神经网络。该方法有效地解决了遥感图像场景分类中类内多样性和类间相似性的问题,同时也极大地提升了分类精度。
(3)采用融合多层深层特征的方法来提高遥感图像场景分类精度也是一种常见的手段。Yuan等人意识到,现有的CNN方法大多只利用最后一个全连接层的特征向量用于场景分类,而这一做法忽略了图像的局部信息。虽然有些图像具有相似的全局特征,但它们所属的类别不同。原因是图像的类别可能与局部特征高度相关,而不是全局特征。因此,首先提取深度神经网络最后一个卷积层和最后一个全连接层的特征分别作为局部特征与全局特征;然后利用聚类方法将全局特征聚类到多个集合中,再根据局部特征与聚类中心的相似度对局部特征进行重新排列;最后通过二者的融合得到最终能够同时表示全局和局部的遥感图像特征。其他融合多层次深层特征的方法包括Fang等人、Lu等人、Zhong等人和Cheng等人提出的方法。
(4)除了上述针对特征层级做出的改进,Chen等人使用有标注的数据集自动学习CNN架构,从而获得可以适应不同类型数据的CNN网络。该方法的提出有助于理解哪些类型的特征对于遥感图像的智能理解是至关重要的。Zhang等人将CNN和CapsNet结合起来用于场景分类。该方法综合了两种网络的优点,同时利用CNN强大的特征提取能力和CapsNet出色的特征融合与分类能力,使最终的分类结果相比于单一网络而言得到有效提升。He等人提出了一种新的跳跃连接协方差(SCCov)网络用于遥感图像场景分类。SCCov是在CNN中加入跳跃连接和协方差池化,减少了参数量,提升了分类性能。Zhu等人将视觉注意机制引入CNN,迫使CNN将注意力集中在有区别的区域,同时利用融合后的深度特征与基于中心的交叉熵损失函数,从而显著提高了分类精度。
2.基于半监督深度学习的遥感图像场景分类方法
此类方法使用的训练样本中只有一部分具有完全标注,其余样本没有标注,从而在一定程度上减少了对标注样本的需求。
Han等人从扩大标注样本规模角度出发,提出了基于半监督深度学习特征的生成框架。该框架可以通过训练自动扩大标注样本的数量。首先利用带标注样本对预训练的CNN进行微调,再利用微调后的CNN提取到的深层特征训练SVM;然后利用训练好的SVM对无标注样本的类别进行预测,再将自动标注的样本加入原标注样本中,以上步骤是迭代进行的。该方法将多个支持向量机联合应用于易混淆类别样本的标注识别,有效地提高了标注精度与标注样本数量;将标注好的样本用于分类网络的训练,从而使网络的泛化能力与分类精度得到有效提升。
首先将无监督训练用于特征学习阶段,从而建立起一个特征提取模型;然后利用有标注的样本训练分类器,这也是一种有效的半监督学习方法。Soto等人联合使用有标注和无标注的样本来训练生成式对抗网络GAN(Generative Adversarial Network),之后将训练好的判别器用于场景分类,此时判别器已具备大量无标注样本的信息,有助于最后分类效果的提升。Zhang等人先利用从图像中提取的有代表性的显著性区域作为无标注样本来训练特征提取器;然后利用该提取器提取待分类样本的特征;最后利用SVM对提取到的特征进行分类。该方法扩充了目标数据集的无标注样本数量,为网络提供了额外信息,提升了最终分类精度。
3.基于弱监督深度学习的遥感图像场景分类方法
此类方法不直接使用目标样本,而是使用与目标样本相似的带标签样本(类别与目标样本类别相似但不相同)对训练场景分类模型进行训练。这种方法将数据集分为源域和目标域,前者不同于后者但相似,后者可以通过各种迁移学习技术获得标注,并进一步用于场景分类模型的训练。例如,Esam Othman等人先将有标注图像提取的特征作为源域,将无标注图像提取到的特征作为目标域,然后将其用于网络训练并优化规定的损失函数,即可分类有标注和无标注数据。Gong等人通过对DSML(Deep Structural Metric Learning,深度结构化度量学习)的改进,提出了D-DSML(Diversity-Promoting-DSML,多样化提升的深度结构化度量学习),减少了DSML产生的参数冗余,增强了特征表达能力,进而提高了最终分类精度。