一种免除二值化的视频叠加中文字符识别方法被引量：2

Recognition of overlaid Chinese characters in videos without binarization

下载PDF

导出

摘要提出一种新的用于识别视频中字幕文字的方法。鉴于视频中文字的大小、颜色、渲染风格和分辨率的不同,以及视频中各种复杂背景的影响,识别视频中的叠加文字是一个尚未解决的问题。目前,大多数视频叠加文字识别方法都基于视频文字的二值化和传统OCR引擎的结合。然而,二值化过程容易引入噪声和文字笔划信息的丢失。另外,传统OCR技术主要专注于高分辨率的扫描打印文档,这些文档具有背景单一、噪声少和笔划信息较完整的特点。因此,传统OCR引擎用于识别叠加文字二值化后的结果可能不够鲁棒。为解决这个问题,直接从未二值化的叠加视频文字图像中提取Gabor特征用于训练二层字符识别器。实验结果表明,本文提出的方法在多字体视频叠加中文文字识别上有良好的效果。 In this paper,a new method for recognizing caption texts in videos is proposed. Due to varying font sizes,colors,styles,and resolutions and complex backgrounds in videos,it is still a challenging problem to recognize overlaid texts in videos. Most existing overlaid text recognition methods are based on the combination of text binarization and traditional OCR engine. However,the process of text binarization may incur noises and text stroke information loss. Additionally,techniques of traditional OCRs are mainly focused on high-resolution scans of printed documents,which have the characteristics of single color background,little noise,and more complete stroke information. Hence, traditional OCR engines might not be robust enough to recognize the binarization results of overlaid text images. In order to solve this problem,we directly extract Gabor features from overlaid text images without binarization for training the two-level character recognizer.The final experimental results demonstrate that the proposed method makes a great progress in overlaid Chinese text recognition with multiple fonts.

作者田洁王伟强孙翼 TIAN Jie;WANG Weiqiang;SUN Yi(School of Computer and Control Engineering, University of Chinese Academy of Sciences, Beifing 101408, China)

机构地区中国科学院大学计算机与控制学院

出处《中国科学院大学学报（中英文）》 CSCD 北大核心 2018年第3期402-408,共7页 Journal of University of Chinese Academy of Sciences

基金国家自然科学基金(61271434)资助

关键词视频叠加文字 OCR GABOR 最近原型分类(NPC) video overlaid text OCR Gabor nearest prototype classifier

分类号 TP393 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

同被引文献13

1元泽怀,陈英俊.一种基于参数化IP核的画中画视频叠加器设计方法[J].广播与电视技术,2008,35(7):98-100. 被引量：1
2吴志军,马兰.一种多媒体视频叠加卡的设计方法[J].电子器件,1997,20(4):31-36. 被引量：1
3贾银亮,张焕春,经亚枝.基于FPGA的直线反走样算法研究[J].计算机技术与发展,2011,21(2):26-29. 被引量：6
4郭小一,老松杨,张国华,陈玲丽.视频叠加暗示信息的有效性评估方法[J].系统工程理论与实践,2012,32(7):1598-1609. 被引量：1
5王文华.浅谈OCR技术的发展和应用[J].福建电脑,2012,28(6):56-56. 被引量：17
6刘楠,毕笃彦,熊磊,李权合.某型飞机仪表符号提取与叠加方法[J].电视技术,2012,36(23):25-28. 被引量：3
7罗国柱,张涌.DM6446中的Qt GUI视频叠加显示方法[J].现代电子技术,2013,36(14):85-88. 被引量：2
8曲锋,隋龙,赵建,孙强.基于FPGA的视频叠加系统在电视导引头中的应用[J].电子设计工程,2016,24(3):181-183. 被引量：1
9张三友,姜代红.基于OPENCV的智能车牌识别系统[J].软件导刊,2016,15(5):87-89. 被引量：11
10李月洁.自然场景中特定文字图像优化识别研究与仿真[J].计算机仿真,2016,33(11):357-360. 被引量：5

引证文献2

1夏昌新,莫浩泓,王成鑫,王瑶,闫仕宇.基于深度学习的图像文字识别技术研究与应用[J].软件导刊,2020,19(2):127-131. 被引量：11
2张杰,王昱煜,苗莉,于小燕.基于FPGA的去反走样黑边锯齿视频叠加方法设计[J].信息与电脑,2021,33(8):59-62.

二级引证文献11

1袁伟,郭欣,田红楠.病例文字识别与提取方法综述[J].机电产品开发与创新,2020,33(6):138-140. 被引量：1
2吴鑫磊,陶青川,张畅.基于DBNet网络的瓶盖文字目标检测[J].现代计算机,2021,27(14):47-53. 被引量：3
3王政,竹梦圆,武欢,陈亚峰.人工智能技术在通信工程数字化设计中的应用[J].邮电设计技术,2021(6):29-34. 被引量：6
4杨德胜,张君,俞雯静,魏永.物联网智能融合签章工作台的设计与实现[J].电力信息与通信技术,2022,20(4):56-62. 被引量：4
5黄奎,敖银辉.基于图像处理的药方文本信息提取系统[J].信息与电脑,2022,34(8):151-153. 被引量：1
6杨德胜.新型物联网智能融合签章工作台探索研究[J].电力信息与通信技术,2022,20(7):102-108. 被引量：2
7杜朋轩.深度学习在文字识别领域的应用研究[J].科技资讯,2022,20(19):41-44.
8魏永,杨德胜,谢贵德.便捷式物联网智能融合签章装置探索与实践[J].科技创新与应用,2022,12(33):24-27. 被引量：3
9赵巍.基于人工智能技术的图像文字识别程序开发与设计[J].电脑编程技巧与维护,2023(4):125-126. 被引量：4
10曹鑫新.浅谈民国报纸数字资源建设质效提升——以国家图书馆为例[J].数字与缩微影像,2023(3):11-14. 被引量：1

1黄良丰,张冉.基于人工智能的集装箱码头智能理货系统[J].港口科技,2018(6):13-18. 被引量：1
2柴庆霖,季翔,周全.当代墓地类建筑空间特征及形式探究[J].建筑与文化,2018(3):114-115.
3张春花.如何提高小学语文课堂的趣味性[J].赢未来,2017(11):116-116.
4林君.纸张中的数字之谜[J].青年博览,2018,0(4):32-32.
5乔舒亚·尤尼秋尔,徐平.论纸张、迪多字体和悲伤[J].长江丛刊,2017(30):54-56.
6江志强.镌刻在作业本上的约定[J].小读者,2018,0(5):36-37.
7乔飞飞.KTV点歌系统的设计与实现[J].电脑知识与技术,2017,13(10X):79-81. 被引量：1
8老万.小工具玩转专业图片文字识别[J].电脑爱好者,2018,0(10):39-39.
9吴寿良.视频叠加技术在智能化工程中的应用[J].智能建筑,2018(2):58-60.
10苏永波.基于WES7+OpenCV的视频叠加系统[J].电工技术,2017(10):39-40.

中国科学院大学学报（中英文）

2018年第3期

浏览历史

内容加载中请稍等...

一种免除二值化的视频叠加中文字符识别方法被引量：2

同被引文献13

引证文献2

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

一种免除二值化的视频叠加中文字符识别方法 被引量：2

同被引文献13

引证文献2

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

一种免除二值化的视频叠加中文字符识别方法被引量：2