基于XML的自动学习Web信息抽取被引量：10

Auto-learning Web Information Extraction Based on XML

下载PDF

导出

摘要因特网给我们提供了巨大的信息量,在信息量极其丰富的Web资源中,蕴涵着大量有用的知识信息。信息爆炸而知识匮乏是当今人们所面临的一个很重要的问题。通过搜索引擎来查找信息将不容易定位到用户最感兴趣的数据上。而通过Web信息抽取的自动化实现,可以提高信息获得的效率。信息抽取可以从网络上分析和发现有用的信息,废弃冗余的数据,提取用户知识领域的知识。本文分析了基于XML的Web信息提取,讨论了相关技术在Web信息抽取中的应用并建立了相应的Web信息抽取模型,通过自动学习来获取信息抽取规则,实现Web信息的自动提取。 Intemet provides us explosive information and involves massive important and useful knowledge within the abundant Web resources. Info explosion and knowledge deficiency are big troubles confronting modem civilization due to the inconven-ience of locating the vital data interested by user via search engine. However, the auto-realization of Web info extraction could significantly enhance the efficiency of info,absorbing. It can also discover as well as analyze targeted info, discard redundant data and extract user-knowledge-domain-infcx This article analyzes Web info extraction methodology based on XML, discusses related technology concerning application of such methodology, establishes Web info extraction model in order to realize auto-extraction of Web info via auto-learning the regulations of Web info extraction.

作者冀高峰汤庸道炜吴桂宾黄帆王鹏

机构地区中山大学计算机科学系

出处《计算机科学》 CSCD 北大核心 2008年第3期87-90,共4页 Computer Science

基金国家自然科学基金项目(60373081,60673135) 广东省自然科学基金项目(04105503,5003348) 教育部“新世纪优秀人才支持计划”资助项目

关键词信息提取半结构化自动学习规则库 XML Info extraction, Semi structural, Auto learning, Regulation library, XML

分类号 TP392 [自动化与计算机技术—计算机应用技术] TP273.2 [自动化与计算机技术—检测技术与自动化装置]

引文网络
相关文献

参考文献10

1Line Eikvil:网上信息抽取技术纵览
2胡东东,孟小峰.一种基于树结构的Web数据自动抽取方法
3Birbeck M,et al.XML高级编程
4黄泳瑜,徐蕙英.XML网页设计应用基础教程
5张清军,朱才连.基于主动学习的Web页面信息抽取
6张瑞,李石君.网上表格数据到XML的自动转换
7尚福华,孙丽.基于XML的Web数据抽取方法的研究
8谢维成,吕先竞,宋玉忠.基于HTML或XML描述的Web页信息抽取技术研究
9张成洪,古晓洪,白延红.Web数据抽取技术研究进展
10Meyer E A.CSS权威指南

同被引文献80

1郑长松,傅彦,佘莉.基于模板的Web信息自动提取方法[J].计算机应用研究,2009,26(2):570-572. 被引量：10
2周明建,高济,李飞.基于本体论的Web信息抽取[J].计算机辅助设计与图形学学报,2004,16(4):535-541. 被引量：34
3王琦,唐世渭,杨冬青,王腾蛟.基于DOM的网页主题信息自动提取[J].计算机研究与发展,2004,41(10):1786-1792. 被引量：81
4吴扬扬,陈锻生.识别和抽取Web列表中的关系信息[J].计算机科学,2004,31(6):86-88. 被引量：3
5李向阳,陆建江,张亚非.基于竞争分类的Web信息抽取[J].电子学报,2004,32(11):1915-1917. 被引量：2
6王睿,张能立,万歆.一种基于JFree Chart的Web统计图表[J].微机发展,2005,15(3):117-120. 被引量：15
7林亚平,刘云中,周顺先,陈治平,蔡立军.基于最大熵的隐马尔可夫模型文本信息抽取[J].电子学报,2005,33(2):236-240. 被引量：48
8许建潮,侯锟.Web信息的自主抽取方法[J].计算机工程与应用,2005,41(14):185-189. 被引量：15
9梁海燕,赵嵩正.基于JSP技术工程项目甘特图的设计与实现[J].计算机应用与软件,2006,23(8):43-44. 被引量：12
10刘耀,穗志方.领域Ontology概念描述体系构建方法探析[J].大学图书馆学报,2006,24(5):28-33. 被引量：15

引证文献10

1陈俊彬,曹树金.基于Heritrix的Web信息抽取[J].图书情报工作,2009,53(9):112-115. 被引量：6
2柳佳刚,陈山,贺令亚.基于本体和DOM相结合的Web信息抽取器[J].现代图书情报技术,2009(5):44-49. 被引量：5
3宋玉忠.Web抽取技术在数字图书馆中的应用[J].四川图书馆学报,2009(3):46-49. 被引量：2
4柳佳刚,龙军,李泽军.一种用于Web信息抽取的页面信息本体自动学习方法[J].计算技术与自动化,2011,30(1):119-123. 被引量：2
5吴一占,马静,谭胜.基于本体学习与动态内容识别的信息抽取系统自优化研究[J].情报学报,2011,30(5):487-494. 被引量：1
6王存昕,蒋文蓉.针对淘宝商家客户管理系统的研究与开发[J].上海第二工业大学学报,2011,28(2):165-170. 被引量：2
7李荣,胡志军,郑家恒.基于遗传算法和隐马尔可夫模型的Web信息抽取的改进[J].计算机科学,2012,39(3):196-199. 被引量：8
8朱焱,朱凯.xScraper:基于Web-Harvest技术批量与深度获取无结构化Web信息[J].计算机科学,2012,39(12):145-148.
9李文,郑邦习,邓武.基于XML和DOM技术的Web信息抽取模型[J].大连交通大学学报,2013,34(3):96-99. 被引量：1
10刘利,戴齐,尹红风,贾真,胡万亭.基于多特征融合的网页正文信息抽取[J].计算机应用与软件,2014,31(7):47-49. 被引量：4

二级引证文献30

1詹佳佳.基于Web-Harvest的Web信息抽取系统的设计与应用[J].现代图书情报技术,2010(3):76-81. 被引量：1
2蔡卫平,艾新革.广州地区图书馆学研究综述(2009)[J].图书馆论坛,2010,30(6):151-155.
3唐吉深.图书馆数据挖掘技术研究现状述评[J].图书馆界,2011(1):42-44. 被引量：15
4贾赛,乔鸿.基于本体的Web信息抽取及本体的构建实现研究[J].图书馆学研究,2011(5):31-36. 被引量：3
5李文阔,李永先.数据挖掘在数字图书馆中的应用研究综述[J].新世纪图书馆,2012(2):30-33. 被引量：10
6王西锋,张晓孪.Web招聘信息抽取中命名实体识别的研究[J].计算机与数字工程,2012,40(5):34-37. 被引量：2
7邹元平,邢珂,林宇,修春,梁进权,宓穗卿,王宁生.基于Web的定向医药信息采集系统设计与实现[J].医学信息学杂志,2012,33(5):23-27. 被引量：2
8柯晓略.Web信息提取技术的研究及其在CSCW中的应用[J].现代计算机,2012,18(16):78-80.
9吴菊英,贾炅昊,冯秀芳.基于农业领域的网络爬虫[J].电脑开发与应用,2012,25(8):30-32. 被引量：2
10宋继伟,石进,吕美香,牛青,陈彬,秦宝宝,董尹.信息情报化的关键——构建CIS分析模块的思考[J].图书情报工作,2012,56(24):33-38. 被引量：1

1韩存鸽,燕敏.Web信息抽取方法研究[J].计算机系统应用,2009,18(7):172-174. 被引量：6
2菜才.彻底删除废弃的电子邮件[J].软件指南,2004(7):49-49.
3张敏.智能搜索引擎的分析与研究[J].运城学院学报,2007,25(2):45-46.
4诺顿病毒播报[J].电脑爱好者,2009(20):113-113.
5陈红叶.粗集理论在Web信息提取中的应用[J].安徽工业大学学报（自然科学版）,2005,22(4):379-382. 被引量：1
6王浩,武凌,司凤山,魏苏林.基于移动代理的分布式入侵检测系统研究[J].重庆科技学院学报（自然科学版）,2013,15(6):143-145. 被引量：3
7郭绍翠,杨旭,张琴.基于J2ME的WebService掌上系统的设计与实现[J].泰山学院学报,2011,33(3):52-56. 被引量：1
8柏家球.专家系统的逻辑基础[J].天津大学学报,1990,23(3):22-27. 被引量：1
9乔杰华,陈维义,蒋欣军.网络数据的挖掘[J].科技信息,2006(05X):30-30.
10李平.浅析搜索引擎[J].科协论坛（下半月）,2009(4):52-52.

计算机科学

2008年第3期

浏览历史

内容加载中请稍等...

基于XML的自动学习Web信息抽取被引量：10

参考文献10

同被引文献80

引证文献10

二级引证文献30

相关作者

相关机构

相关主题

浏览历史

基于XML的自动学习Web信息抽取 被引量：10

参考文献10

同被引文献80

引证文献10

二级引证文献30

相关作者

相关机构

相关主题

浏览历史

基于XML的自动学习Web信息抽取被引量：10