基于机器视觉的路面坑塘裂缝检测系统文献综述

 2022-11-28 17:46:45
  1. 研究背景和意义

对于人类而言,对当前看到的图像进行分析理解轻而易举,我们可以轻易地知道一张图片里出现了什么人什么事物,还可以判断他们的位置并按照逻辑去分析推测接下来可能发生的情况。人类拥有快速、精准的视觉系统,这使得我们稍加思索就能处理复杂的任务。但同时也会耗费大量的精力,而机器不仅仅不需要休息,在数据量的处理上远远超过人类。而快速、精准的目标检测算法(object detection)将使得计算机不需要特殊的传感器就能驾驶汽车,让残疾人辅助设备能为人类使用者实时传递场景信息,并将为通用交互式机器人系统的实现提供巨大推力。不仅如此,还可以跨越多个不同的行业,从全天候监控到智能城市的实时车辆检测等。简而言之,物体检测是强大的深度学习算法中的一个分支。

  1. 国内外研究状况

目前目标检测领域的深度学习方法主要分为两类:two stage的目标检测算法;one stage的目标检测算法。前者是先由算法生成一系列作为样本的候选框,再通过卷积神经网络进行样本分类;后者则不用产生候选框,直接将目标边框定位的问题转化为回归问题处理。正是由于两种方法的差异,在性能上也有不同,前者在检测准确率和定位精度上占优,后者在算法速度上占优。

1. two stage的方法

Two-Stage目标检测算法,其将检测问题划分为两个阶段,首先产生候选区域(region proposals),然后对候选区域进行分类和位置精修,这类算法的典型代表是基于region proposal的R-CNN系列算法,如R-CNN,Fast R-CNN,Faster R-CNN等。

1.1 R-CNN[1]

2014年加州大学伯克利分校的Ross B. Girshick提出R-CNN算法,其在效果上超越同期的Yann Lecun提出的端到端方法OverFeat[5]算法,其算法结构也成为后续two stage的经典结构。R-CNN算法利用选择性搜索(Selective Search)算法评测相邻图像子块的特征相似度,通过对合并后的相似图像区域打分,选择出感兴趣区域的候选框作为样本输入到卷积神经网络结构内部,由网络学习候选框和标定框组成的正负样本特征,形成对应的特征向量,再由支持向量机设计分类器对特征向量分类,最后对候选框以及标定框完成边框回归操作达到目标检测的定位目的。虽然R-CNN算法相较于传统目标检测算法取得了50%的性能提升,但其也有缺陷存在:训练网络的正负样本候选区域由传统算法生成,使得算法速度受到限制;卷积神经网络需要分别对每一个生成的候选区域进行一次特征提取,实际存在大量的重复运算,制约了算法性能。

1.2 Fast R-CNN[2]

针对SPP-Net算法的问题,2015年微软研究院的Ross B. Girshick又提出一种改进的Fast R-CNN算法,借鉴SPP-Net算法结构,设计一种ROI pooling的池化层结构,有效解决R-CNN算法必须将图像区域剪裁、缩放到相同尺寸大小的操作。提出多任务损失函数思想,将分类损失和边框回归损失结合统一训练学习,并输出对应分类和边框坐标,不再需要额外的硬盘空间来存储中间层的特征,梯度能够通过RoI Pooling层直接传播。但是其仍然没有摆脱选择性搜索算法生成正负样本候选框的问题。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可: Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版