基于视觉注意的道路场景显著性检测相关文献综述
- 前言
目前,对视觉注意的研究主要包括三个领域:一是从探索人类大脑视觉系统结构角度研究视觉注意机制的视觉神经科学;二是通过眼动行为学实验研究人类视觉注意机制的认知心理学;三是以开发视觉选择性注意计算模型为目的的计算机视觉。
神经科学领域对视觉注意的研究主要致力于理解其神经机理,从微观的角度研究人类或灵长类动物的大脑中视觉通路及与视觉注意相关的脑区。认知心理学领域对视觉注意的研究主要致力于视觉选择性注意机制的宏观原理,通过设计认知心理学实验分析人类在处理视觉信息时,人眼的眼动轨迹情况或任务反应情况。因此,根据神经科学和认知心理学提出的注意模型,计算机视觉中萌生了一个新的研究问题:开发视觉选择性注意的计算模型,以预测人类在各种场景中的感兴趣区域(Region of Interest, ROI)。
在道路场景中,人们对重要交通元素的注意状态以及对复杂道路场景的即时认知和应对处理是道路行驶安全最重要的因素之一。因此,本文从神经科学和认知心理学对视觉注意的研究成果中获得启发,针对特殊的道路场景设计行为学心理实验,系统地分析人们在道路场景中的视觉注意机制,并建立相应的显著性检测模型,可用于预测人们在道路场景中的注视区域或位置。
- 显著物体检测的研究现状
- 视觉注意理论
Yarbus[2]1967设计了在不同任务条件下的眼动注视位置研究的经典实验,通过对比眼动数据结果得出结论:在观察静止图像时,我们的注意力并不是均匀地分配于图像的各个区域,而是更多地集中于对于识别和感知具有更重要意义的区域或者与视觉高级认知任务相关的目标和区域,人类的眼球运动很大程度上取决于实验中的具体任务。同样在道路场景中,人受行驶任务驱动下的视觉注意也会集中早某个或多个与行驶任务相关的区域或目标。
根据邓[1]在论文中所述,视觉选择性注意主要由两种注意机制组成:(1)基于初级视觉,由数据驱动的自底向上的注意,这种注意通常是受外源视觉刺激和环境因素影响,能对视觉场景进行快速识别;(2)基于高级视觉,与任务、知识等相关的自顶向下的注意,这种注意通常是受内在因素影响,识别更高级的视觉信息。
- 图像显著物体检测模型
随着全卷积神经网络(fully convolutional neural network)的兴起,近年来(2016 年~2018 年),基于深度学习的显著物体检测工作都使用或改造了全卷积神经网络,进行像素级别的显著性预测。例如,Wang 等人[3]将深度学习技术与之前的显著性先验相结合,利用显著性先验获取初始的显著性估计,然后,使用循环神经网络(recurrent neural network)来对初始的显著性先验进行优化。
目前,基于深度学习技术的显著物体检测工作的主要研究重心是 探索更有效、能保留更多空间细节的网络结构。例如,Zhang 等人[4]利用不同尺度输入得到了深度信息,Hou 等人[5]将每一层的深度神经网络特征都进行互连。除此之外,2018年,Wang 等人[6]提出了通过视觉注意力先验来检测视觉显著物体的基于堆栈卷积长短期记忆神经网络的ASNet 模型。
- 视频显著物体检测模型
2017年,Wang等人[7]提出了基于全卷积神经网络的视频显著性物检测模型,这也是第1个基于深度学习的视频显著物体检测模型。该工作主要解决了两个关键问题:(1) 在缺乏充分训练样本的条件下,如何对深度学习模型进行训练;(2) 如何建立快速且准确的视频显著性检测模型。该模型包含了两个模块,分别用于学习空间域和时间域上的显著性信息。其中,动态显著性检测模块,显式地利用了静态显著性检测模块的静态显著性估计, 直接生成时空显著性检测结果,并且避免了耗时的光流计算。同时,该工作中提出了一个重要的数据扩充技术, 能够利用已有的标定好的图像数据集来合成大量的视频数据,从而使深度视频显著物体检测模型能够学习到丰富的显著性信息,并避免了在原来少量视频样本上的过拟合。
- 显著物体检测数据集
常见的图像显著物体检测数据集有MSRA10K[8,10]、ASD[8,9]、ECSSD[11]、PASCAL-S[12]、DUT-OMRON[13]和HKU-IS[14]。在视频显著物体检测领域常用的数据集有 ViSal[15]、MCL[16]、UVSD[17]、VOS[18]、SegTrack[19,20]、FBMS[21,22] 和 DAVIS[23],其中,ViSal、MCL、UVSD、VOS 是专门用于视频显著物体检测任务的数据集,SegTrack、FBMS 和 DAVIS 则在视频物体分割领域有较多的应用。
