基于Tesseract-ocr的藏文脱机识别被引量：2

下载PDF

导出

摘要主要介绍了基于Tesseract-ocr的藏文脱机识别训练的方法,从box文件生成、文字校正、文字特征文件生成、定义字体特征、聚集字体特征、生成训练字库特征库文件这六个方面详细介绍了具体的训练方法,然后通过训练之后的字库特征文件成功识别了图片上的藏文,实现了藏文的脱机识别。

作者翟娟秀普布旦增周欢欢王程新解颐

机构地区西藏大学藏文信息技术研究中心西藏大学工学院

出处《科技创业月刊》 2016年第21期130-131,共2页 Journal of Entrepreneurship in Science & Technology

基金西藏大学自治区级大学生创新性实验训练计划项目"基于tesseract-ocr的藏文自动识别翻译的设计与实现"(项目编号:2015QCX084)

关键词 Tesseract-ocr 藏文脱机识别训练方法字体特征

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1刘淼,杨镇豪,谢韵玲,谢冬青,唐春明.Android图文同步识别系统的设计和实现[J].计算机工程与设计,2014,35(6):2207-2213. 被引量：14
2秦旭光,徐爱功.图像几何校正在OCR文字识别中的应用[J].辽宁工程技术大学学报（自然科学版）,2006,25(S2):64-66. 被引量：8
3欧珠,普次仁,大罗桑朗杰,赵栋才,刘芳,边巴旺堆.印刷体藏文文字识别技术研究[J].计算机工程与应用,2009,45(24):165-169. 被引量：12

二级参考文献25

1杨永崇.地形图变形的分块纠正法[J].测绘通报,2001(10):25-26. 被引量：13
2刘彦花,叶国华.基于扫描地形图的几何纠正算法研究[J].地矿测绘,2001,17(3):1-3. 被引量：5
3王华,丁晓青.一种多字体印刷藏文字符识别方法[J].计算机工程,2004,30(13):18-20. 被引量：10
4高定国,龚育昌.现代藏字全集的属性统计研究[J].中文信息学报,2005,19(1):71-75. 被引量：32
5严海林,江荻.一种基于三级分类器的藏文识别方法[C]//第十届全国少数民族语言文字信息处理学术研讨会论文集,2005.
6刘汇丹,芮建武,吴健.藏文网页的编码识别与转换[C]∥中文信息处理前沿进展--中国中文信息学会二十五周年学术会议论文集,2006.
7吴刚,德熙嘉措,黄鹤鸣.印刷体藏文识别技术[C]//第十届全国少数民族语言文字信息处理学术研讨会论文集,2005.
8Danial Md Nor, Mohd Helmy Abd Wahab, Mohammad Zarar Mohd jenu, et al. a new visual signature for content-based indexing of low resolution documents [J]. Journal of Information Retrieval and Knowledge Management. 2012, 12 (2): 88-95.
9Patel C, Patel A, Patel D. Optical character recognition by open source OCR tool tesseract: A case study [J]. International Journal of Computer Applications. 2012, 55 (10): 50-56.
10Mane MJ, Chavan MS. Design and implementation of median filter for image denoising [J]. International Journal of Electrical and Electronic Engineering &. Telecommunication. 2013, 2 (2): 42-48.

共引文献31

1王辉,王嘉梅.一种基于像素点的手写体文本图像分割方法[J].计算机应用与软件,2009,26(11):61-64. 被引量：1
2吴丽平,于明,马庆丽.文本图像几何畸变自动检测与分类的实现[J].微计算机信息,2010,26(26):192-194.
3张建军,杜莉.基于IPSO和BP神经网络的光学字符识别[J].煤炭技术,2010,29(12):158-160.
4刘赛,王江晴,张振绘.一种用于脱机手写体女书字符切分的方法[J].计算机应用研究,2011,28(3):1188-1190. 被引量：4
5李永忠,王玉雷,刘真真.藏文印刷体字符识别技术研究[J].南京大学学报（自然科学版）,2012,48(1):55-62. 被引量：10
6张金,罗俊,刘鑫鑫,杨子健,张敬威.文档图像屏幕适配方法中的行切问题研究[J].计算机应用与软件,2012,29(6):250-252.
7万金娥,袁保社,谷朝,米尔沙力江.沙吾提.基于字符归一化双投影互相关性匹配识别算法[J].计算机应用,2013,33(3):645-647. 被引量：8
8万金娥,袁保社,李晓,谷朝,米尔沙力江.沙吾提.一种改进的印刷体维吾尔文投影切分方法[J].计算机工程,2013,39(4):263-266. 被引量：10
9普顿,群诺,尼玛扎西.汉文和藏文在信息处理中的比较研究[J].西藏科技,2013(10):77-80. 被引量：2
10杨冬梅,郭晓翠.数字化转型背景下图书馆档案管理的问题与对策[J].西安电子科技大学学报（社会科学版）,2018,28(4):24-27. 被引量：5

同被引文献10

1共确降措.论藏文[J].西藏研究,1997(3):94-108. 被引量：7
2吴刚,德熙嘉措,黄鹤鸣.印刷体藏文识别技术[J].青海师范大学学报（自然科学版）,2006,22(1):32-37. 被引量：8
3胡立夫,齐胜男,张海军.基于神经网络的电表数字识别技术研究[J].沈阳航空航天大学学报,2011,28(2):43-45. 被引量：3
4李永忠,王玉雷,刘真真.藏文印刷体字符识别技术研究[J].南京大学学报（自然科学版）,2012,48(1):55-62. 被引量：10
5王浩军,赵南元,邓钢轶.藏文识别的预处理[J].计算机工程,2001,27(9):93-96. 被引量：20
6郭静,罗华,张涛.机器视觉与应用[J].电子科技,2014,27(7):185-188. 被引量：77
7陈晓东,杨伟旗,关鑫,汪洋.复杂背景下航检视频字符的识别算法与应用[J].内蒙古工业大学学报（自然科学版）,2017,36(1):64-68. 被引量：2
8华伟,孙文凯,单光瑞,贾锴,骆钊.基于OCR技术的变电站防误操作系统[J].电力信息与通信技术,2017,15(4):70-75. 被引量：3
9林阳,郭丙轩,肖雄武,牛科科,赵欣,李大军.利用多种投票策略的水表读数字符分割与识别[J].科学技术与工程,2017,17(10):50-57. 被引量：8
10公保杰,安见才让.印刷体藏文识别中字符切分方法的研究[J].计算机时代,2019,0(9):24-26. 被引量：3

引证文献2

1仁青东主,尼玛扎西.基于深度学习的自然场景藏文识别研究[J].高原科学研究,2019,3(4):96-103. 被引量：9
2彭思淇,田林晓,朱苗苗,张克华.低成本光学字符识别读表系统研制[J].仪器与设备,2017,5(3):55-62. 被引量：2

二级引证文献11

1汪伟,李宝平,沈福海,孙治平,侯博文,高丽妮,阎聪侠.尘肺胸片人工智能读片三种模型效能比较研究[J].环境与职业医学,2022(1):41-46. 被引量：2
2厉建宾,张旭东,吴彬彬,窦智,李豪杰.结合深度神经网络和多阈值软切分的电能表示数自动识别方法[J].计算机应用,2019,39(A01):223-227. 被引量：5
3刘芳,尼玛扎西.基于笔划的藏文字符特征提取方法研究[J].高原科学研究,2020,4(3):105-110. 被引量：4
4周兴杰,罗印升,宋伟.一种改进型卷积神经网络文本识别方法[J].江苏理工学院学报,2020,26(6):44-49.
5杨秀璋,施奕,李娜,刘润森,杨琪,武帅.一种改进卷积神经网络的阿拉伯文字图像识别方法[J].信息技术与信息化,2021(9):6-11. 被引量：4
6洪松,高定国,三排才让,取次.自然场景下乌金体藏文的检测与识别[J].计算机系统应用,2021,30(12):332-338. 被引量：8
7李琦峰,姚剑敏,胡海龙,严群,林志贤.基于深度学习的阿拉伯文字图像识别[J].信息技术与信息化,2022(12):9-13.
8童攀,龙炳鑫,拥措.基于深度学习的藏文乌梅体场景文字识别[J].信息与电脑,2023,35(4):91-93.
9陈炳权,汪政阳,夏蓉,陈明.基于轻量级AlexNet网络的秦简文字识别算法[J].中南大学学报（自然科学版）,2023,54(9):3506-3517. 被引量：1
10珠杰,许泽洲.基于图卷积网络的任意形状藏文文本检测方法研究[J].高原科学研究,2023,7(3):94-101.

1陈晓东,杨伟旗,关鑫,汪洋.复杂背景下航检视频字符的识别算法与应用[J].内蒙古工业大学学报（自然科学版）,2017,36(1):64-68. 被引量：2
2池浩.一个基于Tesseract OCR Engine的Wrapper的设计与实现[J].科技传播,2011,3(23):199-199. 被引量：4
3邱立可,王晓年,朱劲,蒋平.基于模板匹配和Tesseract的票据归类和索引[J].计算机与现代化,2010(7):132-135. 被引量：5
4邬满.基于跳变检测和Tesseract的机打发票识别算法[J].信息与电脑（理论版）,2015(18):43-45. 被引量：4
5方树名,张媛媛.免细化过程的脱机手写体汉字的动态信息提取[J].科技信息,2008(1):87-88. 被引量：1
6张永梅,韩焱,商细云.手写体不规则数码脱机识别的研究与实现[J].电脑开发与应用,2005,18(6):31-32.
7Hsieh,CC,申国光.借助联机模型导向的匹配算法—脱机识别手写体汉字[J].图象识别与自动化,1993(2):30-47.
8张芮,陈萱玮,李桐.浅析Android平台下OCR研究与实现[J].工业设计,2015(4):94-95. 被引量：3
9AbbasH Xiang-LongTang Jia-FengLiu WeiZhao.基于HMM的印刷体阿拉伯文字符识别[J].Journal of Computer Science & Technology,2004,19(C00):61-61.
10Paguet,T,申成.利用有限的专用词汇集识别手写体句子[J].图象识别与自动化,1994(1):29-47.

科技创业月刊

2016年第21期

浏览历史

内容加载中请稍等...

基于Tesseract-ocr的藏文脱机识别被引量：2

参考文献3

二级参考文献25

共引文献31

同被引文献10

引证文献2

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

基于Tesseract-ocr的藏文脱机识别 被引量：2

参考文献3

二级参考文献25

共引文献31

同被引文献10

引证文献2

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

基于Tesseract-ocr的藏文脱机识别被引量：2