期刊论文元数据自动抽取系统的设计与实现

下载PDF

导出

摘要本文提出一种利用网页文本结构聚类从而抽取参考文献元数据的方法,并利用期刊论文的自有格式和同一网站结构相似的特征提取期刊论文的其余元数据。该方法首先将网页期刊论文进行文本块的划分,再利用正则表达式和文本结构的特性实现元数据的自动抽取。实验数据证明了该方法的有效性。

作者钱爱兵

机构地区南京中医药大学经贸管理学院信息管理系

出处《计算机光盘软件与应用》 2014年第21期87-90,94,共5页 Computer CD Software and Application

基金江苏省社会科学基金项目"网络舆情监控预警模式研究"(项目编号:10TQC008) 江苏省高校哲学社会科学研究基金项目"基于本体的高校突发事件网络舆情监控预警模式研究"(项目编号:2010SJB870003) 江苏省教育科学"十二五"规划2011年度课题"中国高等医药院校学术影响力研究"(项目编号:C-c/2011/01/81) 南京中医药大学医史文献学科建设基金项目"基于海量科技文献信息的中医学知识组织研究"(项目编号:WX2013-12) 江苏省教育厅"青蓝工程"资助(项目编号:苏教师(2014)23号)资助的研究成果之一

关键词元数据命名实体信息抽取正则表达式

分类号 TP311.52 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献6

1李胜利,李昌清,袁平鹏,刘英书.基于Web的电子期刊元数据信息抽取方法[J].华中科技大学学报（自然科学版）,2007,35(12):13-15. 被引量：7
2郭志鑫.基于本体的文档引文元数据信息抽取[J].微计算机信息,2006,22(06X):304-306. 被引量：18
3狄涤,周竞扬,潘金贵.基于规则的HTML文档元数据提取[J].计算机工程,2004,30(9):85-86. 被引量：7
4张付志,侯娜,刘慧,马玉静.一种基于启发式搜索的论文元数据提取算法[J].计算机应用与软件,2009,26(9):86-88. 被引量：1
5郭志鑫,金海,陈汉华.SemreX中基于语义的文档参考文献元数据信息提取[J].计算机研究与发展,2006,43(8):1368-1374. 被引量：8
6李朝光,张铭,邓志鸿,杨冬青,唐世渭.论文元数据信息的自动抽取[J].计算机工程与应用,2002,38(21):189-191. 被引量：38

二级参考文献32

1狄涤,周竞扬,潘金贵.基于规则的HTML文档元数据提取[J].计算机工程,2004,30(9):85-86. 被引量：7
2娄雅斌,陶凤梅,马垣.基于“本体”的异构数据源的集成方法研究[J].微计算机信息,2005,21(10X):117-118. 被引量：20
3李跃进,赵晶,林鸿飞.基于Internet的军事演习信息抽取系统[J].计算机工程与应用,2006,42(14):214-218. 被引量：6
4陈汉华,金海,宁小敏,袁平鹏,武浩,郭志鑫.SemreX:一种基于语义相似度的P2P覆盖网络[J].软件学报,2006,17(5):1170-1181. 被引量：41
5周俊生,戴新宇,尹存燕,陈家骏.基于层叠条件随机场模型的中文机构名自动识别[J].电子学报,2006,34(5):804-809. 被引量：112
6郭志鑫.基于本体的文档引文元数据信息抽取[J].微计算机信息,2006,22(06X):304-306. 被引量：18
7[1]Garcia-Molina H,Hammer J,Ireland K,et al.Integrating and Accessing Heterogeneous Information Sources in TSIMMIS[C]∥Proceedings of the AAAI Symposium on Information Gathering.San Francisco:Stanford,1995:61-64.
8[2]ARANAUD S,FABIEN A.Building light-weight wrappers for legacy Web data-sources using W4F[C]∥Proceedings of 25th VLDB Conference.Scotland:Edinburgh,1999:738-741.
9[3]Laender A H F,Ribeiro-Neto B A,da Silva A S,et al.A Brief Survey of Web Data Extraction Tools[J].ACM SIGMOD Record,2002,31(2):84-93.
10[4]卢睿.信息的抽取[D].大连:大连海事学院信息工程学院,2004.

共引文献60

1李胜利,李昌清,袁平鹏,刘英书.基于Web的电子期刊元数据信息抽取方法[J].华中科技大学学报（自然科学版）,2007,35(12):13-15. 被引量：7
2周明建,高济,李飞.基于本体论的Web信息抽取[J].计算机辅助设计与图形学学报,2004,16(4):535-541. 被引量：34
3张继红,陈小全.海量交通安全数据的元数据管理研究[J].计算机研究与发展,2011,48(S1):74-77. 被引量：3
4宫秀志.对中国画人物画创新探索的几点认识[J].齐齐哈尔大学学报（哲学社会科学版）,2005(1):119-119.
5王守芳,狄涤,潘金贵.基于自动规约规则的HTML文档元数据提取[J].模式识别与人工智能,2005,18(4):405-411. 被引量：3
6严玥,李华.基于本体论的课件资源检索系统设计[J].计算机工程与设计,2006,27(5):879-881. 被引量：2
7郭志鑫.基于本体的文档引文元数据信息抽取[J].微计算机信息,2006,22(06X):304-306. 被引量：18
8郭志鑫,金海,陈汉华.SemreX中基于语义的文档参考文献元数据信息提取[J].计算机研究与发展,2006,43(8):1368-1374. 被引量：8
9李小斌.一种从HTML页面到RDF文档的转化方法[J].电脑与信息技术,2006,14(4):24-26. 被引量：1
10吴琴霞,张志鸿.语义Web中RDF元数据的存储与管理[J].微计算机信息,2007,23(33):144-145. 被引量：1

1龚立群,马宝英,常晓荣.科技文献元数据自动抽取研究述评[J].计算机系统应用,2013,22(3):11-15. 被引量：6
2李宝敏.基于本体智能搜索引擎的研究[J].情报杂志,2006,25(10):60-62. 被引量：8
3周亚.2001—2008年国内元数据自动抽取研究综述[J].科技情报开发与经济,2009,19(23):140-142. 被引量：3
4曾宪文,沈学东.基于移动Agent的元数据自动抽取研究[J].微型电脑应用,2006,22(8):10-11.
5刘步中,杨继刚,张曦煌.多分类SVM和RDF的生物信息元数据自动抽取[J].计算机工程与设计,2010,31(11):2659-2662.
6陈淑平,梁东魁.基于机器学习的扫描图书元数据自动抽取研究[J].现代情报,2013,33(6):45-48. 被引量：4
7林毅,宁洪,王挺,刘文杰.基于元数据的数据整合平台[J].计算机应用,2008,28(S2):209-212. 被引量：8
8张铭,银平,邓志鸿,杨冬青.SVM+BiHMM:基于统计方法的元数据抽取混合模型[J].软件学报,2008,19(2):358-368. 被引量：27
9杨宇,张铭,周宝曜.基于多种规则的课程元数据自动抽取[J].计算机科学,2008,35(3):94-96. 被引量：7

计算机光盘软件与应用

2014年第21期

浏览历史

内容加载中请稍等...

期刊论文元数据自动抽取系统的设计与实现

参考文献6

二级参考文献32

共引文献60

相关作者

相关机构

相关主题

浏览历史