一种改进型卷积神经网络文本识别方法

Text Recognition Method Based on Improved Convolution Neural Network

下载PDF

导出

摘要针对目前文本识别网络中参数多、识别速度较慢的不足,提出了一种改进的端到端文本识别网络结构。该结构采用MobileNet-V3替代VGG模型,即采用深度可分离卷积替换掉标准卷积,同时在网络中嵌入了空间注意力模块,使网络能够更多地关注输入图像中的字符部分。通过多个测试数据集,包括ICDAR2003、ICDAR2013和SVT与典型算法进行了实验对比分析,结果表明,改进的模型可以在不降低准确率的情况下,实现网络参数量下降为原来的1/6,速度提升约50%。 Aiming at the shortcomings of the current text recognition network,such as too many parameters and slow recognition speed,an improved end-to-end text recognition network structure is proposed.In this structure,VGG model is replaced by Mobilenet-V3,that is,the standard convolution is replaced by deep separable convolution.At the same time,the spatial attention module is embedded in the network,so that the network can pay more attention to the characters in the input image.Based on several test data sets including ICDAR2003,ICDAR2013 and SVT,compared with the typical algorithm,the results show that the improved model can reduce the network parameters to 1/6 of the original and increase the speed by 50%under the condition of not reducing the accuracy rate.

作者周兴杰罗印升宋伟 ZHOU Xingjie;LUO Yinsheng;SONG Wei(School of Mechanical Engineering,Jiangsu University of Technology,Changzhou 213001,China;School of Electrical and Information Engineering,Jiangsu University of Technology,Changzhou 213001,China)

机构地区江苏理工学院机械工程学院江苏理工学院电气信息工程学院

出处《江苏理工学院学报》 2020年第6期44-49,共6页 Journal of Jiangsu University of Technology

基金江苏省研究生实践创新计划项目“基于激光SLAM与视觉SLAM相融合的植保机定位与建图设计”(SJCX19_0691)。

关键词文本识别 MobileNet-V3 空间注意力卷积神经网络 text recognition MobileNet-V3 spatial attention convolution neural network

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献1

1仁青东主,尼玛扎西.基于深度学习的自然场景藏文识别研究[J].高原科学研究,2019,3(4):96-103. 被引量：9

二级参考文献6

1共确降措.论藏文[J].西藏研究,1997(3):94-108. 被引量：7
2吴刚,德熙嘉措,黄鹤鸣.印刷体藏文识别技术[J].青海师范大学学报（自然科学版）,2006,22(1):32-37. 被引量：8
3李永忠,王玉雷,刘真真.藏文印刷体字符识别技术研究[J].南京大学学报（自然科学版）,2012,48(1):55-62. 被引量：10
4王浩军,赵南元,邓钢轶.藏文识别的预处理[J].计算机工程,2001,27(9):93-96. 被引量：20
5翟娟秀,普布旦增,周欢欢,王程新,解颐.基于Tesseract-ocr的藏文脱机识别[J].科技创业月刊,2016,29(21):130-131. 被引量：2
6公保杰,安见才让.印刷体藏文识别中字符切分方法的研究[J].计算机时代,2019,0(9):24-26. 被引量：3

共引文献8

1刘芳,尼玛扎西.基于笔划的藏文字符特征提取方法研究[J].高原科学研究,2020,4(3):105-110. 被引量：4
2杨秀璋,施奕,李娜,刘润森,杨琪,武帅.一种改进卷积神经网络的阿拉伯文字图像识别方法[J].信息技术与信息化,2021(9):6-11. 被引量：4
3洪松,高定国,三排才让,取次.自然场景下乌金体藏文的检测与识别[J].计算机系统应用,2021,30(12):332-338. 被引量：8
4李琦峰,姚剑敏,胡海龙,严群,林志贤.基于深度学习的阿拉伯文字图像识别[J].信息技术与信息化,2022(12):9-13.
5童攀,龙炳鑫,拥措.基于深度学习的藏文乌梅体场景文字识别[J].信息与电脑,2023,35(4):91-93.
6陈炳权,汪政阳,夏蓉,陈明.基于轻量级AlexNet网络的秦简文字识别算法[J].中南大学学报（自然科学版）,2023,54(9):3506-3517. 被引量：1
7珠杰,许泽洲.基于图卷积网络的任意形状藏文文本检测方法研究[J].高原科学研究,2023,7(3):94-101.
8拥措,龙炳鑫,拉毛杰,仁青东主,尼玛扎西.面向社交媒体的藏文图文多字体检测与识别研究[J].高原科学研究,2023,7(4):76-85.

1曾梦莹.沟通技巧在健康体检护理中的应用分析[J].饮食科学（下半月）,2020(9):0118-0118.
2黄书涵.5G消息图片内文本实时识别的实现[J].福建电脑,2020,36(12):69-72.
3樊帆,高媛,秦品乐,王丽芳.基于并行通道-空间注意力机制的腹部MRI影像多尺度超分辨率重建[J].计算机应用,2020,40(12):3624-3630. 被引量：3
4蒋灵秀,周越.一种基于预测核逐像素重建的图像超分辨率算法[J].中国体视学与图像分析,2020(3):304-311.
5李国豪,袁一帆,贲晛烨,张军平.采用时空注意力机制的人脸微表情识别[J].中国图象图形学报,2020,25(11):2380-2390. 被引量：10
6史维东,张云洲,刘双伟,朱尚栋,暴吉宁.针对形变与遮挡问题的行人再识别[J].中国图象图形学报,2020,25(12):2530-2540. 被引量：7
7廉龙颖.Bi-LSTM+CRF的网络空间安全领域命名实体的识别[J].黑龙江科技大学学报,2020,30(6):717-722. 被引量：4
8鲍文霞,张鑫,胡根生,黄林生,梁栋,林泽.基于深度卷积神经网络的田间麦穗密度估计及计数[J].农业工程学报,2020,36(21):186-193. 被引量：22
9童成彪,谢斌斌,刘宁,严彬.液压系统管道振动诊断与调控研究[J].农业工程与装备,2020,47(8):56-60. 被引量：1
10欧一鸣,苏雍贺,邹孝付,靳健,张长志,陶飞.面向智慧运维的分布式光伏知识库构建方法[J].计算机集成制造系统,2020,26(12):3205-3215. 被引量：9

江苏理工学院学报

2020年第6期

浏览历史

内容加载中请稍等...

一种改进型卷积神经网络文本识别方法

参考文献1

二级参考文献6

共引文献8

相关作者

相关机构

相关主题

浏览历史