基于机器学习的扫描图书元数据自动抽取研究被引量：4

Automatic Metadata Extraction of Scanned Books Based on Machine Learning

下载PDF

导出

摘要在对纸本图书数字化加工过程中,元数据录入是必需的环节,然而手工录入工作量大、效率低,针对这一问题,提出了一种基于机器学习的扫描图书元数据自动获取方法。首先定义元数据的描述、管理和结构元素,然后以扫描页面的DjVuXML文档为数据源,分析页面的格式、结构等特征,以行作为初始特征向量,采用基于有监督的机器学习方法进行元数据抽取,实验表明该算法能够取得较高的准确率和召回率,能够显著的提高图书数字化的效率。 In digital processing of paper books, input of metadata is required. However manual entry is heavy, ineffi-cient. To solve this problem, presented an automatic metadata extraction method to scanned books based on machine learning. First, defined metadata elements composed of description, management and structure element. Then for the data source, that was DjVu XML document, analysised format, structure features of scanned page. To line as initial features vector, used rule-based and supervised machine learning to extract metadata. Experiments show that the algorithm can achieve a fine accuracy and recall rate, while significantly improves the efficiency of digital process of collection.

作者陈淑平梁东魁

机构地区燕山大学图书馆燕山大学信息科学与工程学院

出处《现代情报》 CSSCI 2013年第6期45-48,共4页 Journal of Modern Information

基金河北省秦皇岛市科学技术研究与发展计划项目(201101A087)

关键词馆藏图书数字化元数据抽取特征分析信息抽取 collecllon of books digitization metadata extraction feature analysis information extraction

分类号 TP391.9 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献9

1徐维,胡吉兵,管志宇.元数据概念的产生、发展与成熟[J].中国档案,2003(8):43-44. 被引量：13
2Jiangde Yu,Xiaozhong Fan.Metadata Extraction from Chinese Research Papers Based on Conditional Random Fields[C].Fourth International Conference on Fuzzy Systems and Knowledge Discovery,2007,497-501.
3李朝光,张铭,邓志鸿,杨冬青,唐世渭.论文元数据信息的自动抽取[J].计算机工程与应用,2002,38(21):189-191. 被引量：38
4Y.Hu,H.Li,Y.Cao,et.Automatic extraction of titles from general documents using machine learning[C].In JCDL'05:Proceedings of the 5th ACM/IEEE-CS Joint Conference on Digital Libraries,2005:145-154.
5徐佳宁.DC元数据在网络资源学科导航体系中的应用研究[J].图书馆建设,2002(1):85-87. 被引量：20
6Xiaonan Lu,Brewster Kahle,James Z.Wang,et.A Metadata Generation System for Scanned Scientific Volumes[C].Proceedings of the 8th ACM/IEEE-CS joint conference on Digital libraries,2008,6:167-176.
7Xiaonan Lu,Brewster Kahle.Automatic metadata generation for scanned scientific volumes[C].Proceeding of the 2008 ACM workshop on Research advances in large digital book repositories,2008,10:57-58.
8H.Han,C.L.Giles,E.Manavoglu,et.Automatic document metadata extraction using support vector machines[C].In JCDL'03: Proceedings of the 3rd ACM/IEEE-CS Joint Conference on Digital Libraries,2003:37-48.
9V.I.Levenshtein.Binary codes capable of correcting deletions,insertions,and reversals[J].Soviet Physics Doklady,1966,10(8):707-710.

二级参考文献9

1史建中.DC元数据[M].上海:上海科学技术文献出版社,2000..
2Public Record Office. Management, Appraisal and Preservation of Electronic Records
3Sue McKemmish, Glenda Acland, etc. Describing Records in Context in the Continuum: Th eAustralian recordkeeping Metadata Schema. Archivaria.2000. 48
4David Wallance. Metadata and Archival Management of Electronic Records. Archivaria. 1993. 36
5ICA. Guide for Managing Electronic Records from an Archival Perspective. 1997. p20.
6National Achives of Australia. Recordkeeping Metadata Standard for Commonwealth Agencies. 1999. pT.
7黄豫清,戚广志,张福炎.从WEB文档中构造半结构化信息的抽取器[J].软件学报,2000,11(1):73-78. 被引量：47
8林海青.数字化图书馆的元数据体系[J].中国图书馆学报,2000,26(4):59-64. 被引量：95
9林蓉,周宁,严亚兰.一种基于事件的都柏林核心(DC)数据模型[J].情报学报,2000,19(3):265-270. 被引量：12

共引文献67

1李爱华.档案元数据研究综述[J].河南广播电视大学学报,2014,27(1):107-109. 被引量：1
2周明建,高济,李飞.基于本体论的Web信息抽取[J].计算机辅助设计与图形学学报,2004,16(4):535-541. 被引量：34
3芦姗.2008版与2006版DC元数据术语比较分析[J].神州,2014(14):48-48.
4袁红梅.网络信息资源管理模式——元数据[J].渭南师范学院学报,2004,19(5):62-64. 被引量：11
5萧德洪,张春红,张惠君,李武.学术图书馆学科导航门户资源类型表的设定[J].大学图书馆学报,2004,22(5):28-33. 被引量：15
6吴淑娟.2002-2003年我国元数据研究综述[J].图书情报工作,2004,48(12):105-109. 被引量：6
7宫秀志.对中国画人物画创新探索的几点认识[J].齐齐哈尔大学学报（哲学社会科学版）,2005(1):119-119.
8陈艳红,盛子刚.DC元数据与网络信息检索(综述)[J].河北科技师范学院学报,2005,19(2):73-76. 被引量：9
9刘越男.对电子文件管理元数据的再认识[J].档案学通讯,2005(2):58-62. 被引量：13
10王桂玲.网络资源学科导航与DC元数据[J].现代情报,2005,25(8):209-210. 被引量：17

同被引文献33

1曾苏,马建霞,张秀秀.元数据自动抽取研究新进展[J].现代图书情报技术,2008(4):7-11. 被引量：10
2张秀秀,马建霞.PDF科技论文语义元数据的自动抽取研究[J].现代图书情报技术,2009(2):102-106. 被引量：10
3贺德方.国内外知识组织体系的研究进展及应对策略[J].情报学报,2010,29(6):963-972. 被引量：19
4吴琴霞,高峰,刘永革.基于XML语言甲骨文语料库元数据抽取的研究[J].计算机技术与发展,2012,22(5):216-218. 被引量：5
5王红运,黄映辉.语义Web粗糙本体:定义、模型和存储方法[J].计算机应用研究,2012,29(7):2520-2523. 被引量：2
6魏书堤.基于最小熵值相似矩阵构造方法及其聚类过程[J].湖南科技大学学报（自然科学版）,2012,27(3):72-75. 被引量：4
7蒋永福,付小红.知识组织论:图书情报学的理论基础[J].图书馆建设,2000(4):14-17. 被引量：97
8闫振丰,黄映辉.基于概念格的语义Web粗糙模糊本体构建[J].计算机工程与设计,2013,34(11):4002-4006. 被引量：2
9李进金,张燕兰,吴伟志,陈锦坤.形式背景与协调决策形式背景属性约简与概念格生成[J].计算机学报,2014,37(8):1768-1774. 被引量：37
10智慧来.不完备形式背景上的知识表示[J].计算机科学,2015,42(1):276-278. 被引量：12

引证文献4

1徐丽芳,曹羽凤.Kadaxis:图书内容元数据自动生成技术的领跑者[J].出版参考,2018(6):17-20. 被引量：3
2安敬民,李冠宇.基于最小信息熵分类的不确定元数据本体构建[J].计算机工程与设计,2018,39(9):2758-2763. 被引量：5
3杨茜茜.我国综合档案馆档案开放鉴定研究:方法框架构建[J].档案与建设,2020(9):11-16. 被引量：14
4曹茹烨,曹树金.ChatGPT完成知识组织任务的效果及启示[J].情报资料工作,2023,44(5):18-27. 被引量：13

二级引证文献35

1张臻.新修订档案法背景下档案开放制度的完善[J].浙江档案,2021(4):29-32. 被引量：18
2金小力,张美娟.Open Road Integrated Media:美国文学类重版书数字营销的开拓者[J].出版参考,2019,0(9):22-25.
3孙小虎,宋慧娟,代安琪,许刚.基于预测的输变电工程元数据分级索引算法[J].计算机工程与设计,2019,40(11):3192-3199. 被引量：5
4王煜,叶赛,范文涛.基于粒度结构分析的数控机床制造信息资源自动化检测方法[J].制造业自动化,2019,41(12):120-124. 被引量：2
5圣文顺,孙艳文.一种改进的ID3决策算法及其应用[J].计算机与数字工程,2019,47(12):2943-2945. 被引量：5
6王鹏涛.新技术环境下阅读演进研究:趋势、特征与应对[J].编辑之友,2020(4):28-33. 被引量：2
7赵诚,赵传信,夏芸.基于模糊向量机优化的信息分类优化模型设计[J].计算机仿真,2021,38(5):398-402.
8常大伟,董秀月,董一超.档案利用权利保障的难点与对策——基于国家档案馆义务履行的视角[J].浙江档案,2021(5):28-29. 被引量：4
9刘锦宏,宋明珍.人工智能技术驱动下的出版价值创新战略研究[J].出版广角,2021(13):33-37. 被引量：5
10崔铁军,李莎莎.线性熵的系统故障熵模型及其时变研究[J].智能系统学报,2021,16(6):1136-1142. 被引量：2

1欧阳辉,禄乐滨,钱建立.基于C4.5的论文元数据抽取算法研究[J].计算机工程与设计,2010,31(16):3708-3711. 被引量：4
2模糊搜索馆藏图书[J].电脑爱好者（普及版）,2011(A01):159-159.
3钱爱兵.期刊论文元数据自动抽取系统的设计与实现[J].计算机光盘软件与应用,2014,17(21):87-90.
4龚立群,马宝英,常晓荣.科技文献元数据自动抽取研究述评[J].计算机系统应用,2013,22(3):11-15. 被引量：6
5张铭,银平,邓志鸿,杨冬青.SVM+BiHMM:基于统计方法的元数据抽取混合模型[J].软件学报,2008,19(2):358-368. 被引量：27
6欧阳辉,禄乐滨.基于SVM的论文元数据抽取方法研究[J].电子设计工程,2010,18(5):4-7. 被引量：6
7杨宇,张铭,周宝曜.基于多种规则的课程元数据自动抽取[J].计算机科学,2008,35(3):94-96. 被引量：7
8吴琴霞,高峰,刘永革.基于XML语言甲骨文语料库元数据抽取的研究[J].计算机技术与发展,2012,22(5):216-218. 被引量：5
9欧阳辉,禄乐滨.基于证据理论的论文元数据抽取算法研究[J].电子设计工程,2010,18(4):66-69. 被引量：3
10郑雅.基于.NET技术的图书馆管理系统的设计与实现[J].机械设计与制造工程,2016,45(10):66-69.

现代情报

2013年第6期

浏览历史

内容加载中请稍等...

基于机器学习的扫描图书元数据自动抽取研究被引量：4

参考文献9

二级参考文献9

共引文献67

同被引文献33

引证文献4

二级引证文献35

相关作者

相关机构

相关主题

浏览历史

基于机器学习的扫描图书元数据自动抽取研究 被引量：4

参考文献9

二级参考文献9

共引文献67

同被引文献33

引证文献4

二级引证文献35

相关作者

相关机构

相关主题

浏览历史

基于机器学习的扫描图书元数据自动抽取研究被引量：4