当深度学习遇见SAR-袁志辉博士

2022-04-27

遥感应用中的深度学习在国际上得到了相当大的宣传,但它主要局限于光学数据的评估。尽管在合成孔径雷达(SAR)数据处理中引入了深度学习,尽管首次尝试取得了成功,但其巨大的潜力仍然被锁定。下面介绍一些最相关的深度学习模型和概念,通过分析SAR数据的特殊特征指出可能存在的缺陷,回顾应用于SAR的深度学习的现状,总结现有的基准,并推荐一些重要的未来研究方向。通过这一努力,希望在这个有趣但尚未充分开发的领域激发更多的研究,并为在SAR大数据处理工作中深度学习的使用铺平道路。

近年来,深度学习以惊人的速度发展,在许多领域取得了巨大成功。与传统算法不同,基于深度学习的方法通常采用层次结构(如深度神经网络)来提取大量任务原始数据的特征表示。例如,卷积神经网络(CNN)能够从原始图像中学习具有卷积层和池化层的低层和高层特征,然后将提取的特征应用于各种计算机视觉任务,例如大规模图像识别、目标检测和语义分割。受计算机视觉领域众多成功应用的启发,深度学习在遥感领域的应用现在受到了广泛关注。作为SAR应用的首次尝试,基于深度学习的方法已被用于各种任务,包括地形表面分类、目标检测、参数反演、去斑点、干涉SAR(InSAR)中的特定功能和SAR光学数据融合。

对于SAR和极化SAR(PolSAR)图像的地表分类,有效的特征提取至关重要。这些特征是基于专家领域知识提取的,通常适用于少量案例和数据集。然而,事实证明,深度学习特征提取在一定程度上克服了上述两个问题。对于SAR目标检测,传统方法主要依赖模板匹配,其中手动创建特定模板来分类不同类别,并使用传统的机器学习(ML)方法,如支持向量机(SVM);相比之下,现代深度学习算法的目标是应用深度CNN自动提取用于目标识别的鉴别特征。对于参数反演,采用深度学习模型从SAR图像学习到估计参数的潜在映射函数,例如海冰浓度。关于去噪,传统方法通常依赖于人工滤波器,在去噪时可能会受到尖锐特征消除不当的影响。此外,SAR和光学图像联合分析的发展是由从这两类图像中提取特征的能力推动的。对于InSAR的应用,目前只进行了少量的研究。然而,这些算法忽略了相位的特殊性,只使用了一个开箱即用的基于深度学习的模型。

深度学习尽管在遥感领域取得了初步成功,但与光学数据评估不同,SAR和InSAR深度学习的巨大潜力仍然存在。例如,据作者所知,目前还没有为大数据操作处理而开发的或整合到任何卫星任务生产链中的SAR深度学习实例。

(一)深度学习模型介绍

在本节中,我们简要回顾了相关的深度学习算法,这些算法最初是为视觉数据处理而提出的,广泛用于SAR深度学习的最新研究。此外,我们还提到了最新的深度学习进展,这些进展尚未广泛应用于SAR,但可能有助于创建下一代算法。图1概述了我们在本节中讨论的深度学习模型。

image.png 

图1 深度学习的相关模型

 

在讨论深度学习算法之前,我们想强调的是,高质量基准数据集在深度学习研究中的重要性无论怎样强调都不为过。特别是在有监督学习中,模型所能获得的知识受到训练数据集中存在的信息的限制。例如,修改后的国家标准与技术研究所数据集在LeCuns关于CNN和基于梯度的学习的开创性论文中发挥了关键作用。类似地,如果没有ImageNet数据集,就不会有AlexNet,也就是启动当前深度学习复兴的网络。ImageNet数据集包含1400多万张图像和2.2万个课程。ImageNet是深度学习研究的一个重要组成部分,在发表10多年后,它仍然被用作评估CNN图像分类性能的标准基准。

(1)深度学习模型

深度学习模型的主要原理是将输入数据编码为目标任务的有效特征表示。为了举例说明深度学习框架的工作原理,我们以自动编码器为例:它首先通过可训练的非线性映射将输入数据映射到潜在表示,然后通过反向映射重建输入。重构误差通常定义为输入和重构输入之间的欧几里得距离。在反向传播步骤中,自动编码器的参数由基于梯度下降的优化器优化,例如随机梯度下降、均方根传播和Adam。

(2)CNNs

随着AlexNet在2012年ImageNet大规模视觉识别挑战赛(ILSVRC)中的成功,该网络的前五名测试错误率为15.3%,而第二名测试错误率为26.2%,CNN已经引起了全世界的关注,现在被用于许多图像理解任务,如图像分类、目标检测、,以及语义分割。AlexNet由五个卷积层、三个最大池层和三个完全连接的层组成。AlexNet的一项关键创新是使用了图形处理单元(GPU),这使得在不使用超级计算机的情况下,用巨大的数据集训练如此庞大的网络成为可能。仅在两年内,视觉几何组网络的性能就超过了AlexNet,在ILSVRC-2014测试中,其测试误差达到6.8%,位居前五位;主要的区别在于,它只使用了3个大小为3的卷积核,这使它能够拥有更多的通道,进而捕获更多不同的特征。

剩余神经网络(ResNet)、U-Net和DenseNet是下一个主要的CNN架构。它们的主要特点是,通过使用跳过连接,不仅连接相邻层,而且连接网络中的任意两层。这有助于减少跨网络的信息丢失,缓解梯度消失的问题,并促进更深层次网络的设计。U-Net是最常用的图像分割网络之一。它有一个基于自动编码器的体系结构,使用跳过连接将功能从第一层连接到最后一层,从第二层连接到第二层,依此类推;通过这种方式,它可以从初始层到最终层获得细粒度信息。U-Net最初被提出用于医学图像分割,其中数据标记是一个大问题。作者对输入数据采用了大量的数据扩充技术,使得仅从几百个带注释的样本中学习成为可能。

在ResNet中,跳过连接被合并到单个块中,而不是整个网络。自最初被提出以来,ResNet经历了许多架构上的调整,即使在五年之后,它的变体也始终是ImageNet上得分最高的。在DenseNet中,所有层都连接到前面的所有层,从而减小了网络的大小,尽管这是以内存使用为代价的。这些CNN模型也证明了它们在SAR处理任务中的价值。

(3)递归神经网络

除了CNN之外,递归神经网络(RNN)也是一类主要的深度网络。它们的主要构造块是循环单元,以当前输入和前一状态的输出作为输入。它们为处理可变长度的数据(包括文本和时间序列信息)提供了最先进的结果。它们的权重可以用卷积核代替,用于视觉处理任务,例如图像字幕和预测视觉时间序列数据中的未来帧\/点。长短时记忆(LSTM)是最流行的RNN体系结构之一:其单元可以存储任何过去实例的值,并且不会受到梯度减小问题的严重影响。与深度学习工具包中的任何其他时间序列数据一样,RNN是处理SAR时间序列信息的自然选择。

(4)生成对抗网络

生成性对抗网络(GAN)是深度学习领域最受欢迎和最令人兴奋的发明之一。基于博弈论原理,它们由两个网络组成,分别称为生成器和鉴别器。生成器的目标是学习一个潜在空间,通过该空间,它可以从与训练数据相同的分布中创建样本,而鉴别器试图学习区分样本是来自生成器还是来自训练数据。这种非常简单的机制负责为各种应用提供最前沿的算法,例如生成人工照片级真实感图像和视频、超分辨率和文本图像合成。例如,在SAR领域,GANs已经成功应用于除云应用。有关更多示例,请参见应用于SAR的深度学习的最新进展一节。

(二)有监督、无监督和强化学习

(1)有监督学习

大多数流行的深度学习模型属于有监督的深度学习。例如,他们需要有标签的数据集来学习目标函数。有监督学习的一大挑战是泛化,即训练模型在测试数据上的表现如何。因此,训练数据真正代表实际的数据分布是至关重要的,这样他们就可以处理所有看不见的信息。如果模型与训练数据拟合良好,而在测试数据上失败,则会发生过度拟合。在深度学习文献中,有几种技巧可以用来避免过度拟合,例如辍学法。

(2)无监督学习

无监督学习指的是训练数据不包含标签的一类算法。例如,在经典数据分析中,可以使用主成分分析来降低数据维度,然后使用聚类算法对相似的数据点进行分组。在深度学习生成模型中,自动编码器、变分自动编码器(VAE)和GANs是可用于无监督学习的一些流行技术。他们的主要目标是从与输入数据相同的分布中生成输出数据。自动编码器由一个编码器和一个解码器组成,前者查找输入的压缩潜在表示,后者将表示转换回原始输入。VAE通过学习整个分布,而不是编码器末端的单一表示,将自动编码器提升到下一个级别;这反过来又可以被解码器用来生成整个输出分布。学习这种分布的诀窍是还获取编码器-解码器集合点处潜在表示的方差和平均值,并在自动编码器的标准重建损失函数中添加基于Kullback-CLeibler散度的损失项。

(3)深度强化学习

强化学习(RL)试图模仿人类的学习行为,即根据环境反馈采取行动,然后为未来调整行动。例如,幼儿根据父母的反应学习重复或不重复他们的行为。RL模型包括一个有状态的环境、在这些状态之间转换的动作,以及一个最终处于不同状态的奖励系统。该算法的目标是使用反馈奖励系统学习给定状态下的最佳动作。在经典的RL算法函数中,近似器用于计算不同状态下不同动作的概率。Deep RL使用不同类型的神经网络来创建这些函数。最近,由于谷歌deep Mind’s AlphaGo击败围棋棋盘游戏世界冠军,deep RL受到了特别的关注并获得了很高的人气。直到几年前,计算机都认为这项任务是不可能完成的。

(三)深度学习在SAR中的应用研究进展

在本节中,我们从六个角度深入回顾应用于SAR数据的深度学习方法:地形表面分类、目标检测、参数反演、去斑点、InSAR和SAR光学数据融合。对于每一项,我们按时间顺序陈述值得注意的发展,并报告其优缺点。最后,每一部分都有一个简短的总结。值得一提的是,这里没有明确讨论深度学习在SAR图像形成中的应用。对于SAR聚焦,我们必须区分通用聚焦和具有先验已知特性(如稀疏性)的物体成像。通用算法为土地利用和土地覆盖分类、冰川监测、生物量估算和干涉测量等应用生成数据。这些数据是具有复杂价值的集中数据,保留了原始数据中包含的所有信息。

通用聚焦有一个定义良好的系统模型,需要一系列快速傅里叶变换(FFT)和相量乘法,即线性运算,如矩阵矢量乘法。几十年来,优化算法已经被开发出来,以尽可能高的速度和有限的精度执行这些操作。没有理由认为深层神经网络的性能比这个黄金标准更好或更快。然而,如果我们想引入有关成像物体的先验知识,神经网络可以学习专门的聚焦算法。但是,即便如此,通过标准算法首先关注原始数据并将深度学习应用于后处理可能还是有意义的。CNN最早被训练用于稀疏的军事目标。然而,在这种方法中,原始数据在进入CNN之前通过FFT部分聚焦。

(1)地形表面分类

地形表面分类作为SAR应用的一个重要方向,在深度学习的帮助下,利用PolSAR图像进行地形表面分类正在迅速发展。关于特征提取,大多数传统方法依赖于探索SAR图像中的物理散射特性和纹理信息。然而,这些特性主要是基于数据源的特定问题和特征而人为设计的。与传统方法相比,深度学习具有自动学习判别特征的能力,在地形表面分类中具有优越性。此外,深度学习方法,如CNN,不仅可以有效地提取极化特征,还可以有效地提取PolSAR图像的空间模式。除了这些使用CNN的单一图像分类方案外,还利用CNN对SAR图像时间序列进行作物分类。SAR图像分类的示意图如如2所示。

 

image.png 

图2 SAR图像分类结果示意图

 

基于深度学习的SAR和PolSAR分类算法在过去几年中取得了显著进步。虽然最初的重点是使用SAEs及其改进进行低阶表征学习,但后来的研究集中在与SAR图像相关的许多问题上,例如考虑斑点保留、空间结构及其复杂性质。还可以看出,标记数据稀缺的挑战促使研究人员使用半监督学习算法,尽管针对高分辨率光学数据提出的语义标注弱监督方法尚未明确探索用于使用SAR数据的分类任务。此外,可以对SAR图像采用特定的度量学习方法来增强类别可分性,以提高整体分类精度。最后,MLs的一个重要领域AutoML在PolSAR图像分类中得到了应用,该领域尚未被遥感界广泛开发。

(2)目标检测

尽管SAR图像与光学红绿蓝(RGB)图像的特征并不相同,但SAR目标检测问题仍然类似于光学图像分类和分割,因为从原始数据中提取特征始终是一个优先且关键的步骤。因此,鉴于在光学领域取得的成功,深度学习无疑是开发最先进的SAR目标检测算法的最有希望的方法之一。早期的大部分工作与使用深度学习的SAR目标检测相关,包括将成功的深度学习方法用于光学目标检测,并将其应用于军用车辆检测、移动和静止目标捕获识别(MSTAR)数据集,以及使用自定义数据集的舰船目标检测。即使是小型网络也很容易在大多数任务中达到90%以上的测试精度。后来深度学习又被应用于建筑物目标检测。

总体而言,深度学习在现有SAR目标检测任务中表现出了非常好的性能。在处理任何SAR目标检测任务时,算法设计者需要记住两个主要挑战。第一个涉及识别SAR图像的特征,例如成像几何、对象大小和斑点噪声。第二个也是更大的困难是缺乏高质量的标准化数据集。正如我们所观察到的,最流行的数据集MSTAR对于深网来说太容易了,对于船舶检测,大多数作者都创建了自己的数据集,这使得很难判断所提出算法的质量,甚至更难比较不同的算法。在全球建筑检测中可以找到一个难以创建的数据集示例。建筑的形状、大小和风格因地区而异,因此,为此目的建立一个良好的数据集需要从世界各地的建筑中提取训练样本,这项任务需要付出巨大努力,以产生足够高质量的结构注释,使深度网络能够从中学习。

(3)参数反演

SAR图像参数反演是SAR应用中一个具有挑战性的领域。冰浓度估算作为一个重要的分支,由于其在冰监测和气候研究中的重要性而受到广泛关注。由于SAR信号与海冰之间存在复杂的相互作用,经验算法在解释SAR图像以准确估计海冰浓度方面面临困难。Wang等人利用CNN从双极化SAR图像生成冰浓度图。他们的方法以强度标度双波段SAR图像的图像块作为输入,直接输出冰浓度。Wang等人还利用各种CNN模型从融化季节的SAR图像估计冰浓度。标签由ice专家通过视觉解释制作。该算法在双极化雷达卫星RadarSat-2的数据上进行了测试。由于考虑的问题涉及连续值的回归,因此选择均方误差作为损失函数。实验结果表明,CNNs可以提供比比较业务产品更准确的结果。

总的来说,基于深度学习的SAR参数估计尚未得到充分利用。不幸的是,遥感界的大部分关注点都集中在经典问题上,这些问题与计算机视觉任务重叠,例如分类、目标检测、分割和去噪。其中一个原因可能是,由于参数估计通常需要结合适当的物理模型,并以回归而非分类的方式处理手头的问题,因此领域知识对于将深度学习应用于此类任务(尤其是SAR图像)非常重要,具有独特的身体特征。地形表面分类部分详细介绍了一项有趣的研究,该研究通过复值SAR数据的光谱分析设计鉴别特征,是将深度学习纳入使用SAR数据的参数反演研究的一项重要工作。希望今后在这方面有研究者能开展更多的研究。

(4)去斑点

斑点是由来自亚分辨率物体的散射信号之间的相干相互作用引起的,它常常给SAR图像的处理和解释带来困难。因此,在将SAR图像应用于各种任务之前,去斑点是一个至关重要的过程。传统方法旨在从空间上消除斑点,其中使用局部空间滤波器,例如Lee、Kuan和Frost滤波器,或者通过使用基于小波的方法。在过去十年中,基于块的斑点抑制方法因其在不牺牲图像分辨率的情况下保持空间特征的能力而受到欢迎。Deledalle等人通过考虑斑点的统计特性,结合原始非局部图像去噪算法,提出了第一个应用于斑点抑制的基于非局部块的方法之一。后面还出现了大量用于SAR去斑点的非局部方法的变体。然而,一方面,传统算法手工选择合适的参数并不容易,而且对参考图像敏感。另一方面,通过经验去斑点的方法很难在保留不同的图像特征和去除伪影之间取得平衡。为了解决这些局限性,人们开发了基于深度学习的方法。

目前大多数去斑点方法都采用基于CNN的架构,使用场景的单一图像进行训练;他们要么以端到端的方式输出干净的图像,要么提出基于残差的技术来学习潜在的噪声模型。由于Sentinel-1任务提供了大量的时间序列档案,一个有趣的方向是利用斑点特性的时间相关性进行去斑点应用。去斑点应用中还有一个关键问题需要解决的是过度平滑问题。许多基于CNN的方法在斑点去除方面表现良好,但无法保留锐利的边缘。尤其是在城市地区的高分辨率SAR图像中,这是一个很大的问题。基于监督深度学习的去斑点技术的另一个问题是缺乏地面真实数据。在许多研究中,训练数据集是通过乘性噪声破坏光学图像来建立的。这对于真实SAR数据的去斑点应用来说是远远不够的。因此,采用无监督的方法进行去斑点是非常理想和值得关注的。

(5)InSAR

合成孔径雷达干涉测量(InSAR)是最重要的SAR技术之一,广泛用于重建地球表面的地形,即生成DEM,以及用时间序列方法检测地形位移,例如监测火山爆发、地震、地面沉降以及城市地区。InSAR的原理是首先测量位于不同位置的两根天线接收到的信号之间的干涉相位,然后对得到的干涉图进行解缠并将绝对相位转换为高度来提取地形信息。然而,实际干涉图往往存在大量奇异点,这些奇异点源于雷达测量中的干扰失真和噪声。这些奇异点会导致解缠错误,从而导致低质量DEM。为了解决该问题,研究者们便提出了将深度学习应用于InSAR的方法。

不过,在InSAR中使用深度学习方法目前仍处于非常早期的阶段。虽然深度学习已经在InSAR的不同应用中进行了融入,但除了Hirose的开创性工作之外,干涉图的全部潜力还没有得到充分发挥。许多应用将干涉图和由干涉图得到的变形图视为与RGB图和灰度图相似的图像,因此干涉图的复杂性一直没有被注意。除了这个问题,例如与深度学习相关的SAR去斑点问题,检测和图像恢复问题缺乏地面真实数据,这促使人们专注于开发结合深度学习和InSAR的半监督和非监督算法。否则,由不同场景和不同相位贡献的干涉图组成的训练数据库可能有利于有监督学习的应用。

(6)SAR与光学数据的融合

SAR和光学图像的融合可以提供有关目标的补充信息。然而,考虑到两种不同的传感模式,相应图像的先验识别和协同配准是一种挑战,但却是强制性的。为了识别和匹配SAR图像和光学图像,许多现有方法都借助于深度学习,因为它具有从复杂图像中提取有效特征的强大能力。有研究者提出了一种CNN用于识别复杂城市场景的VHR光学和SAR图像的相应图像块。该网络由两个流组成:一个用于从光学图像中提取特征,另一个负责从SAR图像中学习特征。接下来,通过级联层对提取的特征进行融合,以便对其对应关系进行进一步的二进制预测。类似地,Hughes等人提出了一种伪Siamese CNN,用于学习SAR和光学图像块的多传感器对应预测器。值得注意的是,这两个网络在SARptical数据集上进行了训练和验证,该数据集专门用于密集城市地区VHR SAR和光学图像的联合分析。尽管由光学和SAR对应图像块组成的少数数据集可用于不同的地形类型和应用,但最大的问题之一仍然是缺乏高质量的训练数据。SAR光学图像匹配中的一个巨大挑战涉及两个传感器之间的极端差异——观察几何。为此,利用辅助3D数据来辅助训练数据生成非常重要。总之,利用深度学习方法进行SAR光学数据融合也一直是遥感界的热门话题。