基于深度学习的电能表图像识别技术文献综述

 2023-08-15 17:11:05

文献综述(或调研报告):

电表文字检测属于自然场景文字检测的范围,与普通文本文档文字识别不同,在自然场景图像中,准确定位字符位置和识别文字都是极具挑战的任务,自然场景图像背景复杂、文字布局多变、多语言、多方向等问题,都加大了图像文字检测的难度。

自然场景文字检测在不同阶段有不同的任务,主要分为两类:①文字检测,需要检测出文字区域,并从输入图像中提取这些区域;②文字识别,对定位后的文字区域进行识别,对文字信息进行提取。采用深度学习的方法对电表图像中的文本进行端到端识别,需要将文本检测网络和文本识别网络整合在一个模型中,以提高整体性能。

文本检测网络

文本检测是自然场景文本识别的关键步骤,文本检测的方法主要分为基于目标检测,基于图像分割的方法以及混合方法等三种。基于目标检测的算法分为两个阶段,首先产生候选区域,然后对候选区域进行分类和边界框回归,将深度学习的方法用于目标检测,能够提高准确率和识别速度。由于电表图像中的文本行都是用独立的字符或者笔画组成的,将目标检测的一般方法用于场景文本检测效果欠佳,需要更高的定位精度与速度,文章[1]等人基于卷积神经网络设计的R-CNN模型对分类模型进行微调,移除了最后一个全连接层,利用选择性搜索算法在图像上提取约2000个候选区域,然后再将每个候选区域缩放至相同大小,并输入到卷积神经网络内进行特征提取,之后对候选框中提取出的特征送入分类器中分辨是否属于该类,进一步调整候选框位置。但R-CNN步骤繁琐,训练耗时长,占用磁盘空间大,测试速度较慢。

基于通用目标检测的方法中,有大量基于R-CNN模型的改进工作,文献[2]提出的基于Faster R-CNN[3]的CTPN 网络( Connectionist Text Proposal Network),将 Faster-RNN中的RPN(Region Proposal Network) 架构应用到文本检测中,并首次将循环神经网络(Recurrent Neural Network, RNN)引入场景文字检测中,加入双向长短时记忆循环神经网络(Bi-directional LSTM RNN)[4]连接文字块,用于提取上下文信息,能够准确定位多尺度和多语言的文本。DeepText 模型同样对Faster R-CNN模型进行了改进,在RPN后接Inception模块[5]来更好的提取候选单词区域,并将RolPool层改为多层,对文字分类时加入歧义文字类别。除了基于Faster R-CNN模型,还有基于SSD或YOLO这类不需要生成候选框的模型。文献[6]使用类似于YOLO的结构训练生成多方向的矩形框,确定感兴趣的区域,文献[7]将文字视为小块单元进行旋转并回归,把SSD改为多方向模型,可以处理多方向文字以及长文字。

基于目标检测的方法能够很好地解决水平文字的定位,但对于非水平文字,主流方法是基于图像分割的方法。文献[8]将文字行视为一个需要分割的目标, 将FCN引入场景文字检 测任务中,主要思想是将文字块局部与全局集成,利用FCN生成一个像素级别的文字。文献[9]提出了CCTN模型,把传统的自底向上的方法改成自顶向下的方法,先用CNN粗略检测候选文字区域,再用CNN从候选文字区域中找出准确的文字行位置。

文本识别网络

传统的文本识别一般采用自下而上的方法,通过将文本框里的字符进行分割,通过深度卷积神经网络( DCNN) [10]等方法识别出各个字符,再将其整合成单词。文献[11]将文本识别看作一个图像多分类问题,为每个英文单词分配一个类标签。文献[12]提出了一种将特征提取,序列建模和转录整合到统一框架中的新型神经网络架构,称为卷积循环神经网络(CRNN),其集成了卷积神经网络(CNN)和循环神经网络(RNN)的优点。将文本识别看作一个序列识别问题,避免了字符分割,用RNN生成任意长度的连续标签,采用连接时间分类( CTC) 可对序列进行解码。文献[15]提出将软注意力模型用于序列文本识别,可以有选择性地利用局部图像特征,通过训练循环神经网络从数据中自动学习权重参数,具有很好的识别效果。

端到端的文本识别要完成文本检测和文本识别两项任务,一般先检测出文本区域,然后将裁剪后的文本行输入到单词分类器中进行识别。文本[13]构建了第一个真正意义上的端到端的场景文本识别系统,通过 MSER提取候选文本,用分类器得到文本候选字符,然后送到字符识别模块。文献[14]提出了一个精度高的文本检测器 TextBoxes,并将其与 CRNN结合形成文本识别系统,其性能较高。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可: Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版