摘要
本文提出一种利用网页文本结构聚类从而抽取参考文献元数据的方法,并利用期刊论文的自有格式和同一网站结构相似的特征提取期刊论文的其余元数据。该方法首先将网页期刊论文进行文本块的划分,再利用正则表达式和文本结构的特性实现元数据的自动抽取。实验数据证明了该方法的有效性。
出处
《计算机光盘软件与应用》
2014年第21期87-90,94,共5页
Computer CD Software and Application
基金
江苏省社会科学基金项目"网络舆情监控预警模式研究"(项目编号:10TQC008)
江苏省高校哲学社会科学研究基金项目"基于本体的高校突发事件网络舆情监控预警模式研究"(项目编号:2010SJB870003)
江苏省教育科学"十二五"规划2011年度课题"中国高等医药院校学术影响力研究"(项目编号:C-c/2011/01/81)
南京中医药大学医史文献学科建设基金项目"基于海量科技文献信息的中医学知识组织研究"(项目编号:WX2013-12)
江苏省教育厅"青蓝工程"资助(项目编号:苏教师(2014)23号)资助的研究成果之一