科学成果 - 微美全息科学院

使用无人机图像和深度学习技术的自动道路损伤检测-刘湘辉博士

2024-10-17

一.介绍

管理好一个国家所有道路的养护对其经济发展至关重要。定期评估道路状况是必要的，以确保它们的寿命和安全。传统上，国家或私人机构手动执行这一过程，他们使用配备各种传感器的车辆来检测道路损坏情况。然而，这种方法对人工操作人员来说耗时、昂贵且危险。为了应对这些挑战，研究人员和工程师已经转向无人驾驶飞行器(UAV)和人工智能(AI)技术来实现自动化道路损伤检测。近年来，人们对使用无人机和基于深度学习的方法开发高效且具有成本效益的道路损伤检测方法的兴趣激增。

无人驾驶飞行器已被证明在各种应用中是通用的，包括城市物体和环境的检查。它们越来越多地用于道路检查，与传统方法相比有几个优点。这些车辆配备了高分辨率摄像头和其他传感器，可以从多个角度和高度捕捉路面图像，提供全面的道路状况视图。此外，无人机可以相对快速地覆盖大片区域，减少人工检查的需要，这对于操作员来说可能是危险的。

因此，使用无人机进行道路检查已经引起了研究人员和工程师的极大关注。将无人机与人工智能技术(如深度学习)相结合，可以开发出高效且具有成本效益的道路损伤检测方法。它经常被用来对游泳池、屋顶、植被和城市环境、等进行城市检查。

目前，西班牙的道路状况检查是手动进行的，需要人员沿着道路行驶以确定损坏点。由于需要人力和特定的相机和传感器，这种方法的成本很高。修复道路损坏的决策过程是专家的责任。相比之下，像中国这样的国家拥有庞大的道路和高速公路网络，使它们容易受到表面裂缝和雨水渗入的影响，这可能会加速道路的恶化，并对车辆安全构成威胁。如果不能及时发现和迅速获得有关道路缺陷的信息，就可能发生车辆过度磨损和交通事故的可能性增加，从而导致进一步的经济损失。因此，检测道路恶化的自动化技术的发展已成为一个关键的研究领域，许多大学和研究中心合作寻找有效的解决方案。

道路损伤自动检测是一个活跃的研究领域，旨在使用多种技术(如振动传感器、光探测和测距(LiDAR)传感器和基于图像的方法)检测和绘制各种类型的道路损伤。这些技术通常结合使用，以提高损伤检测的准确性。机器学习方法，如深度学习，通常用于基于图像的技术来识别各种类型的道路退化。这些方法通常需要一个图像数据集，其中可以包括自上而下的照片、无人机拍摄的图像、移动设备获取的图像、卫星图像平台获取的图像、热图像、沥青表面的3D图像或立体视觉图像。

研究人员一直在进行研究，使用各种数据集来训练模型，包括由无人机、安装在汽车上的摄像头和卫星捕获的额外图像。为了方便学习过程，通常会对这些数据集进行注释，以识别不同类型的道路损坏，包括但不限于凹坑、裂缝和车辙。对这些图像进行标注，使算法能够准确地检测和分类各种类型的道路损伤。利用庞大而多样的数据集，研究人员可以提高模型的准确性和可靠性，确保他们能够有效地识别和处理道路上不同类型的损坏。

A.道路损伤检测数据集

为了支持自动道路损伤检测技术的发展，2022年IEEE大数据杯组织了基于群体感知的道路损伤检测挑战赛(CRDDC)。本次国际竞赛涉及来自六个国家(日本、印度、捷克共和国、挪威、美国和中国)的47,420张道路图像的已发布数据集。这些图像已经标注了超过55,000个道路损坏实例，包括纵向裂缝，横向裂缝，裂缝和坑洼。

CRDDC旨在鼓励基于深度学习的方法的发展，以自动检测和分类道路损伤。市政当局和道路机构可以利用RDD2022数据集进行低成本的道路状况自动监测。此外，计算机视觉和机器学习研究人员可以使用该数据集对其他相同类型的基于图像的应用程序(如分类和对象检测)的不同算法的性能进行基准测试。

一些组织在他们的模型中使用了RDD2022数据集，而一些组织则排除了数据集中的中国无人机部分。这些组织使用的顶级算法包括yolo系列和Faster CNN系列模型，YOLOv5、YOLOv7 和 YPLNet。

许多组织使用集成模型来获得更好的准确性，使用诸如图像补丁策略、定制锚盒、注意力模块和使用多个增强级别训练的集成模型等技术。其他技术包括图像增强、标签平滑、协调关注、裁剪挪威图像以仅关注道路区域，以及使用来自所有国家的数据训练特定国家的模型。

B.YOLO系列

文献中的证据表明，You Only Look Once (YOLO)是目标检测领域中最常用的算法之一。它是一种流行的目标检测算法，已经发布了几个版本。当我们比较所有YOLO系列的演变时，我们可以看到在检测时间上的显著演变。在第一个发表的版本中，由于只需要一个反向传播神经网络来进行预测，YOLO被设计在低处理能力的设备上运行。由于最初的版本是基于AlexNET的，因此该方法又经历了几次迭代。

在YOLO算法的时间线上，出现了YOLOv3版本^[15]和YOLOv4版本。综上所述，YOLOv3和YOLOv4都是基于深度学习的目标检测算法，但YOLOv4是对YOLOv3的改进。YOLOv4针对实时目标检测进行了优化，并在大量图像和视频数据集上进行了训练，以提高其准确性。YOLOv4还包括新的技术，如马赛克数据增强和DropBlock，提高其性能。

到2021年，yolo4被认为是YOLO的最新和最精确的版本。它建立在定制设计的神经网络架构上，该架构使用卷积和转置卷积层的组合来检测图像和视频中的物体。YOLOv4进行了优化实时目标检测，并在大型图像和视频数据集上进行训练，以提高其准确性。

随后，该算法的第五个版本YOLOv5^[17]发布。这个算法被证明是一个完美的模型，带来了更多的选择，因为我们可以突出图像分割，但它仍然需要更接近第5次主要更新。结果与YOLOv4非常相似，YOLOv4做了大量的工作，并且考虑了所有的细微差别。YOLOv5是对YOLOv4的改进。它基于一种新的SPADE架构，利用语义和空间信息来提高目标检测精度。YOLOv5还使用了一种称为马赛克数据增强的新训练算法来增强模型的泛化。

后来，该算法发布了第七版^[18]，这是YOLO模型生命周期中的最新迭代。YOLOv7比以前的版本(即YOLOv5)推断得更快、更准确。YOLOv7是最新版本的YOLO。它建立在一种名为Efficient-YOLO的新架构上，该架构使用高效率网络(EfficientNet)作为主干网络。YOLOv7在大型数据集上进行了训练，并针对实时目标检测进行了优化。它比以前版本的YOLO更准确和更快。

综上所述，到2021年，YOLOv4被认为是最精确的YOLO版本，并针对实时目标检测进行了优化。YOLOv7是YOLO的最新版本。它基于一种名为Efficient-YOLO的新架构，比以前的版本更准确、更快。

C.目标和结构

本文建立在先前的一个项目的基础上，该项目提出了一种无人机图像中具有凹坑识别的路面监测系统架构。在这项新的研究中，我们扩展了之前的解决方案，将其与新的算法和数据集进行比较，引入新的损伤类别，并在训练期间采用数据增强，以促进适应图像中物体的急剧大小变化。最后，对YOLOv5和YOLOv7模型进行了比较，并针对无人机用例使用Transformer预测头对YOLOv5模型进行了改进。

在这项工作中，我们使用了以前工作和基于群体感知的道路损坏合并的数据集。检测挑战，包括新的损伤类别，以更全面地了解路面损伤。实验结果证明了该方法的有效性和有效性，在测试数据集上取得了更高的精度。

该项目的主要目标是利用无人机捕获的图像和先进的人工视觉和智能技术来改进道路状态的自主监控系统。拟议中的系统将通知维修公司检测到的道路损坏，包括发送带有发现损坏的地理坐标的信息的能力。

我们的团队做出了一些贡献，包括:1.增加一个额外的预测头，以解决对象尺度变化大的问题，2.将Transformer预测头(TPH)集成到YOLOv5模型中，从而提高了高密度场景中的物体定位，3.提供一系列有用的技术和过滤掉无效的方法，用于无人机捕获场景中的目标检测，4.利用自训练分类器提高某些模糊类别的分类精度，5.该项目引入了几种新的路面损坏类别。这些裂缝包括纵向裂缝、裂缝、坑洼、颠簸和修补。该项目通过增加这些额外的类别，可以更全面地了解路面损坏情况，从而实现更精确、更有效的道路基础设施监测。

在整个项目中，卷积神经网络检测沥青缺陷，允许操作员覆盖或建议，以提高准确性。此外，我们将实现自动规划路线的功能，以覆盖整个道路，消除了飞行员手动操作的需要，并利用PIX4D自动化路线规划。

本文的结构如下:第二节深入分析了现有的损伤检测方法和无人机方面的文献。第三部分深入研究了系统的架构设计、使用的数据集及其实现。在第四节中讨论了所进行的实验，并对实验结果进行了讨论。最后，第五节总结论文通过提出研究结果的总结和提纲潜在的未来工作。

二.相关的工作

图像捕获在道路或高速公路状况的初步评估中起着至关重要的作用。无人机，特别是无人机，是一种高效且经济的方式，可以从各个角度捕捉高质量和详细的路面照片。在这项研究中，我们使用了DJI Mavic Air 2S无人机，这是为这个项目预算的最新无人机版本。这款无人机具有高分辨率摄像头、GPS和避障传感器等先进功能，使其能够以最小的失真捕捉高质量的路面图像。此外，使用无人机可以更全面地覆盖路面，特别是在难以到达的区域，并且可以安全快速地完成。

相关文章主要关注改进深度学习和无人驾驶飞行器(UAV)中的现有算法。例如，自主无人机已被用于结构健康监测和实时损伤测绘，使用深度学习方法和具有地理标记的超声波信标。CNN等深度学习技术在车辆交通监测、大种群监测、动物识别、风力发电机检测、电气元件检测等多个领域都显示出良好的效果。这些技术还可以用于分析安装在车辆上的摄像头的图像或视频，以检测道路坑洼，使其成为自动道路损伤检测的有效方法。

交通运输行业也不例外，道路损伤识别任务已经准备好从深度学习技术的快速发展和普及中获益。利用卷积神经网络(CNN)或其他深度学习技术分析安装在车辆上的摄像头拍摄的图像或视频，以检测道路坑洼是可能的。自动道路损伤检测的基本方法之一是使用深度学习算法。这些算法可以有效地检测一系列物体，包括损伤。

该领域的标准深度学习方法包括卷积神经网络(CNN)的实现。在论文中，作者提出了一种用于无人机图像道路损伤检测的深度卷积神经网络(CNN)。提出的CNN在无人机图像数据集上进行了训练和测试，结果表明它可以准确地检测到道路损伤。在提出了一种使用CNN深度架构检测混凝土裂缝的新方法，而不需要图像处理技术(IPTs)来提取缺陷特征。CNN在40000张图像的大数据集上进行训练，准确率达到98%左右。在不同的结构条件下对该方法进行了测试，结果表明该方法比传统的Canny和Sobel边缘检测方法性能更好。

在最近的另一项工作中，作者提出了一种基于深度学习的物体检测方法，用于使用无人机图像进行自动道路损伤检测。他们使用Faster R-CNN算法作为目标检测器。结果反映该方法优于其他道路损伤检测方法。

此外，作者提出使用区域卷积神经网络(Regions with Convolutional Neural Network, R-CNN)及其改进方法Faster R-CNN进行结构目视检测，可以检测多种类型的损伤，包括混凝土裂缝、钢材腐蚀、螺栓腐蚀和钢材分层。该方法的平均精度达到87.8%。该方法提供了非常快的测试速度，每幅图像为0.03秒，可以使用训练好的网络对视频进行准实时损伤检测。

目前，仅仅从结构图像中检测损伤是不够的。为了充分了解和评估损坏的程度，有必要通过测量检测到的缺陷的大小来量化它。这需要一种更先进的技术，称为像素级分割，它可以准确地描绘图像中受损区域的边界。

单镜头检测(SSD)是另一种专门用于道路或混凝土损伤检测的视角。这项工作提出了SDDNet，这是一种深度学习模型，用于在手动创建的数据集上实现高精度。该模型与最近的模型进行了比较，并在处理图像时以36 FPS的速度优于它们，这比以前的作品要快得多。

与文献相关的另一种解决方案是使用多光谱图像来检测道路损伤。利用无人机进行多光谱成像是检测和分析道路损伤的有力工具。另一种方法是使用高光谱图像来检测道路路面裂缝。在研究中，引入了沥青裂缝指标，发现该指标对裂缝检测是有效的，与现有文献相比，f1得分平均提高了21.37%。

卷积神经网络(Convolutional Neural Networks, CNN)和Transformer也可用于高光谱图像分类。CNN可以通过学习光谱域的空间模式从高光谱数据中提取特征，而变形金刚可以通过建模远程依赖关系来捕获全局上下文信息。这两种方法在高光谱图像分类任务中都显示出有希望的结果。在这项工作中，我们采用YOLO，因为它是最有效的技术。当我们写第一篇文章时，最新的版本是YOLOv4。YOLOv7是该算法的当前版本，在本工作中已经进行了广泛的尝试。YOLOv7的速度和精度在每秒5到160帧之间。该项目测试了各种超参数(使用免费)和模型(添加模块和自定义配置文件)，以训练用于道路损伤检测和分类任务的模型。

YOLOv7的速度和精度在每秒5到160帧之间。该项目测试了各种超参数(使用免费赠品)和模型(添加模块和自定义配置文件)，以训练用于道路损伤检测和分类任务的模型。

三.设计与实现

A.实现

该提案的主要目标是保留街道表面、道路、高速公路和其他车辆交通表面的变形。该项目的最初提案使用了一架集成了高分辨率相机的商用无人机，在这种情况下，还使用了多光谱相机。多光谱相机，顾名思义，是一种能够捕捉多个光谱的相机。在本文的数据集中，不涉及多光谱相机的使用，只使用高分辨率相机的图像。

B.无人机图像数据集

首先，在本研究开始时，我们进行了文献检索，以找到沥青凹坑和裂缝的数据集。但是，该数据库与目前的建议不同，即利用无人驾驶飞机在距离道路安全的距离拍摄照片。因此，需要一个新的数据集来准确地描述西班牙的道路状况。总共拍摄了600张照片，分辨率为3840 × 2160像素。这些照片是大疆Air 2S无人机在距离地面50米的西班牙道路上拍摄的，只有两个等级，坑洞(D40)和裂缝(D00)。

在创建数据集并对所有照片进行标记后，恢复了568张标记的照片。在预处理阶段调整了照片的方向，得到了新的尺寸(640 x 640)。利用增强技术创建了集合中每个图像的不同迭代。照片的缩放级别从0%到15%不等。收藏中总共包含了1362张图片。这些照片的70%用于训练，20%用于验证，10%用于测试训练模型的有效性。该数据集在以前的工作中使用过，其存储库可用。

继续构建数据集，我们将之前的数据集(西班牙)作为训练深度学习模型的参考，以自动从收集的视频中检测道路损坏。此外，我们加入了CRDDC2022中提供的数据集。该数据集是多个国家的道路损害数据集。该基准数据集用于训练和测试用于自动路面破损检测的机器学习模型。该数据集包含来自五个国家(中国、日本、捷克共和国、挪威、美国和印度)的47,420张道路照片。我们使用这些照片来训练和测试模型，以识别四种类型的路面损伤:裂缝(D20)、横向裂缝(D10)、纵向裂缝(D00)和坑洼裂缝(D40)。

该数据集的训练集用于训练机器学习模型来识别四种类型的路面损伤。模型从训练集中的照片中学习识别每种类型损伤的特征。该数据集的测试集用于评估训练模型的性能。将模型应用于测试集中的照片，并将其预测结果与实际标签进行比较，以评估模型的准确性。

该数据集对于从事自动路面破损检测的研究人员和工程师非常有用，因为它提供了一组大量且多样化的图像，可用于训练和测试模型。包括来自不同国家的图像，确保使用该数据集训练的模型可以很好地泛化到不同的道路条件和环境。

这些图像是通过智能手机、高分辨率相机和卫星图像获得的。所有这些都是通过使用汽车、摩托车和无人机获得的。对于中国，提供了两个数据集:Ch_M，指的是手机拍摄的图像，Ch_UAV，指的是无人机拍摄的图像。

为了编写本文的数据集，我们使用了西班牙的第一个道路数据集和中国无人机拍摄的一小部分图像Ch_UAV，如上表所示。该数据集还包括两个互补类修复，指的是在道路和块裂缝上进行的一些修复。我们注意到，在建议的训练集中包含无人机数据增加了数据集的异质性。他们与RDD2020和这项工作保持一致，该工作的重点是考虑到公众可行的方法，低成本和负担得起的自动道路损伤检测。

该数据集使用自动定向进行增强和预处理，并将大小调整为640 × 640。对图像进行增强，人工增加数据集的大小和多样性。在本例中，每个训练示例都被扩充以产生两个输出。旋转被应用于在-15°和+15°之间随机旋转图像，以使模型对被检测对象的不同方向更加鲁棒。

C.数据准备

根据上表，将两个数据集合并并分为三个版本，分别格式化为YOLOv4、YOLOv5和YOLOv7。一个目录用于培训，而另一个目录用于验证。此外，这两个文件夹必须具有标签和图像目录。标签将包括一个文本文件，其中包含每个标签图像的图像注释，而图像将包含实际的照片。文本文件的名称必须与关联图像的名称匹配。生成新的YOLO注释后，。文件夹遵循YOLO数据集结构。关于数据集的信息，包括名称和类的数量，包含在文件“data.yaml”中。所有这一切都要归功于Roboflow平台，所有数据集都存储在该平台上。

D.模型训练

YOLOv4-tiny模型作为本工作的初始基础，与YOLOv2和YOLOv3一样，遵循协调预测的概念。可以进行多类分类，而不是像旧版本那样进行单类分类。这个初始网络被设置为在568个图像中检测两个类。后来使用了YOLOv5、YOLOv5- transformer和YOLOv7，类的数量增加到6个。然后，用这6个类和4000张图像进行新的训练。

为了训练YOLO模型，我们准备了数据，并向其输入了必要的数据集。所训练的模型能够检测到以下几种裂缝:纵向裂缝(DO0)、横向裂缝(D10)、形裂缝(D20)、凹坑裂缝(D40)、修补和砌块裂缝。我们使用roboflow平台生成的数据集中的4873张照片来训练模型。本研究中描述的模型的训练和验证是使用Intel(R) Core(TM) i9-10940X CPU @3.30GHz计算机进行的，具有128GB RAM和RTX3090 GPU，由于价格合理的GPU可用性，集成内存为24GB。

E.图像增强

图像增强是一种通过对现有图像进行各种变换来扩展训练数据集的技术。图像增强的目的是在训练数据集中引入可变性和多样性，这有助于提高模型的泛化能力。YOLOv7和YOLOv5可以使用各种图像增强技术，例如:

随机水平翻转:该技术将图像随机水平翻转，为模型提供相同对象在不同方向上的更多示例。

随机裁剪:该技术随机裁剪图像的一部分，为模型提供不同比例和位置的对象的更多示例。

随机旋转:该技术随机旋转图像，为模型提供更多不同方向的对象示例。

随机亮度和对比度:该技术随机调整图像的亮度和对比度，为模型提供不同光照条件下物体的更多样例。

随机颜色抖动:该技术随机改变图像的颜色，为模型提供更多物体在不同颜色变化下的例子。

YOLOv5和YOLOv7是最先进的算法，可以增强和升级图像，以提高模型的鲁棒性和准确性。默认参数的几个问题对结果产生了负面影响。使用这些技术，YOLOv7和YOLOv5可以增加训练数据集的大小和多样性。这有助于防止过拟合，提高模型的泛化能力。

我们训练了三个模型:第一个模型使用了YOLOv4架构，它复制了先前研究的实验;第二种采用YOLOv5设计;第三个是YOLOv7架构。现在，我们将检查每个模型的结果，并猜测我们如何以及为什么得出这些结论，以选择最适合手头任务的最终设计。