基于XML的Web数据抽取研究被引量：5

Study on Web Data Extraction Based on XML

下载PDF

导出

摘要文中介绍了三种常用的Web数据抽取的方法:直接解析HTML文档的方法,基于XML的方法(也称作为分析HTML层次结构的方法)以及基于概念建模的方法。重点研究其中的基于XML的数据抽取方法,基本做法是将原始的HTML文档通过一个过滤器检查并修改HTML文档的语法结构,从而形成一篇基于XML的XHTML,然后利用XML工具来处理这些HTML文档。实现了从非结构化的HTML文档向结构化的XML文档转化的预处理过程,给在Web挖掘中使用传统的数据抽取方法进行数据抽取创造了有利条件。 Introduces three common methods for Web data extraction.method that directly analyses HTML document, method that bases on XML（it is also called method that analyses the structure of HTML document ） and conceptual - model- based approach, especially,Web data extraction based on XML is studied. The original HTML document gets through a filter which checks and corrects the syntax structure of HTML document, then forms an well- formed XHTML, XML stools can be used to dispose these HTML documents. Implemented a data preprocessing which transformed the semi- structured HTML document to the structured XML document. Also it created a good condition of using the traditional data extraction methods to deeply data extraction.

作者吕锋余丽

机构地区武汉理工大学

出处《计算机技术与发展》 2007年第6期53-55,共3页 Computer Technology and Development

基金教育部重点实验室开放研究基金(TKLJ0203)

关键词 XML WEB 数据抽取 XML Web data extraction

分类号 TP274.2 [自动化与计算机技术—检测技术与自动化装置]

引文网络
相关文献

参考文献5

1杨鲲,孟波.一种基于XML的Web数据挖掘方法[J].计算机应用,2003,23(z1):160-161. 被引量：9
2蔡霞,张森,周宇.模式发现在Web抽取中的应用及设计[J].控制工程,2003,10(3):227-229. 被引量：7
3刘晓鹏,邢长征.基于WEB文本数据挖掘的研究[J].计算机与数字工程,2005,33(9):75-79. 被引量：10
4王建丽,丁振国.一种基于XML的Web数据挖掘技术[J].西安科技学院学报,2002,22(3):337-340. 被引量：8
5沈洁,薛贵荣.一种基于XML的Web数据挖掘模型[J].系统工程理论与实践,2002,22(9):74-77. 被引量：33

二级参考文献20

1黄中杰王天利.XML新网页语言开发手册[M].北京:清华大学出版社,2000.50-90.
2[1]Bay T, Paoli J, Sperberg-McQueen C M. Extensible Markup Language(XML) 1.0 Specification World Wide Web Consortium Recommendation[EB/OL]. http://www.w3.org/TR/REC-xml/,1999.
3[2]Ananel S S. Designing a kenel for data mining[J]. IEEE Expert on Intelligent System,1997,27(3):947-963.
4[3]Lawrence S, et al. Searching the world wide web[J]. Science,1998,280(5360):98-100.
5[4]Anne Lear. XML Seen as Integral to application integration[J]. IT Pro,1999,(9/10):1012-1031.
6[2]Florescu D, Levy A, Mendelzon A. Database Techniques for the WorldWide Web - A Survery[J]. SIGMOD Record, 1998, 27(3).
7[3]Abiteboul S. Query semi - structured data[A]. Proc. Of the Intl.Conf. on Database Theory(ICDT) [C], Dephi, Greece, 1997.
8[4]Suciu D. Semi - structured Data and XML[ R]. AT&T Labs, 1999.
9[5]Widom J. Data Management for XML; Research Directions[ Z]. Bulletion of the IEEE Compuer Society Technical Committee on Data Engineering, 1999.
10Arnaud Sahuguet, Fabien Azavant. Building lightweight wrappers for legacy web data-sources using W4F[ A]. In Proe International Conference on Very Large Data Bases (VLDB) [C]. Scotland: Edinburgh, 1999.

共引文献57

1曹丹,薛明,许元春.XML在WEB挖掘中的应用[J].新乡师范高等专科学校学报,2006,0(2):40-42.
2顾红其.Xml在web数据挖掘中的作用与研究[J].科技信息,2008(27). 被引量：1
3连瑞梅.Web内容挖掘中XML技术的应用[J].科技经济市场,2007(7):181-182.
4袁勇,万幼川.基于Web数据挖掘模型的研究[J].地理空间信息,2004,2(3):22-24.
5潘有能,邓三鸿.基于XML和关联规则的Web挖掘研究[J].现代图书情报技术,2004(7):30-34. 被引量：9
6林建勤.基于Web的数据挖掘应用模式研究[J].贵州师范大学学报（自然科学版）,2004,22(3):92-96. 被引量：10
7关冰.基于XML的WEB数据挖掘技术系统框架的设计[J].电脑知识与技术（认证考试）,2004(08M):66-68. 被引量：2
8朱良,谈香如.一种用决策树对XML文档进行分类的方法[J].长沙电力学院学报（自然科学版）,2004,19(2):21-23.
9姚兴山.XML技术在Web数据挖掘中的应用[J].中国信息导报,2005(1):55-56.
10周霜菊,孙济庆.基于Agent的Web知识过滤器设计[J].计算机与数字工程,2005,33(3):85-89.

同被引文献33

1钟巧华.数据仓库的数据抽取技术研究[J].计算机工程,2004,30(B12):62-63. 被引量：11
2王婷,陈和平.XML技术在嵌入式系统图形界面开发中的应用[J].武汉科技大学学报,2005,28(1):75-77. 被引量：8
3马玉春,孙冰.半结构化信息抽取在股票交易中的应用研究[J].情报科学,2005,23(9):1376-1380. 被引量：2
4任伟,张毅,聂捷楠.基于嵌入式系统开发平台的设计与实现[J].微计算机信息,2006(10Z):178-180. 被引量：5
5GAO Xiang WANG Min ZHAO Rongchun.A Framework for an Adaptive Anomaly Detection System with Fuzzy Data Mining[J].Wuhan University Journal of Natural Sciences,2006,11(6):1797-1800. 被引量：1
6佘名高,贾秀峰,林坤江,张德超.基于Web服务的企业应用集成[J].计算机技术与发展,2007,17(5):55-58. 被引量：19
7党伟超,白尚旺.一种基于OWL-S的Web服务体系结构[J].计算机技术与发展,2007,17(5):195-198. 被引量：6
8佘名高,王程根,邓浩,李祎.基于Web2.0的Ajax技术的开发[J].计算机技术与发展,2007,17(5):203-205. 被引量：17
9袁菲,陆阳.XML在嵌入式环境下的应用[J].合肥工业大学学报（自然科学版）,2007,30(4):445-448. 被引量：3
10黄叶珏,陈勤.Web网站统一口令认证系统的设计与实现[J].计算机技术与发展,2007,17(6):163-165. 被引量：3

引证文献5

1李雪竹.一种基于XML的Web数据抽取的实现[J].科学技术与工程,2008,8(9):2473-2476. 被引量：3
2邱鑫,林颖,王保保.基于XML的嵌入式系统日志解决方案[J].计算机技术与发展,2009,19(5):52-55. 被引量：1
3王建胜,高翔.基于Web的HSE监督信息系统的设计与实现[J].计算机技术与发展,2010,20(10):228-231.
4张志强,杨在义,叶安胜,王伟钧.股票交易数据文件的抽取算法研究[J].成都大学学报（自然科学版）,2014,33(3):262-265.
5张志强,王伟钧,郑加林,杨晋浩.一种混沌状态数据包的数据抽取算法设计与实现[J].成都大学学报（自然科学版）,2018,37(1):45-48. 被引量：1

二级引证文献5

1方杰,朱京红.日志挖掘中的数据预处理[J].计算机技术与发展,2010,20(4):17-20. 被引量：6
2闵笛,金义富.XML技术在EPON网管系统配置单元中的应用[J].计算机技术与发展,2010,20(8):195-198. 被引量：3
3杜秀亭,张春芳.Ajax技术在内蒙古烟草外部网站建设中的应用研究[J].内蒙古大学学报（自然科学版）,2010,41(4):460-462.
4郭东峰.基于DOM的Web数据抽取研究[J].科技创新与应用,2013,3(18):77-77. 被引量：1
5余向前.基于XML的电力营销数据智能抽取方法研究[J].自动化仪表,2023,44(1):92-95. 被引量：2

1聂南,谢晓东,甘勇.基于XML Schema技术的编译符号表生成方法[J].计算机科学,2007,34(5):285-287.
2周茜.网站遭到恶意镜像的处理办法[J].计算机与网络,2014,40(19):45-45.
3岳鹏晖.基于CMM的软件质量管理[J].内蒙古科技与经济,2007(07S):66-67. 被引量：3
4NI全新推出TestStand 3.5版可集成LabVIEW 8和行业标准XML工具[J].微计算机信息,2006(01X):276-276.
5TestStand 3．5版集成LabVIEW 8和行业标准XML工具——新版本的测试管理软件可将简化测试系统的配置[J].今日电子,2006(1):85-85.
6吴晓琴,陈圣兵,何立新.改进遗传算法在文本聚类中的应用研究[J].巢湖学院学报,2013,15(3):27-31.
7柴振荣.个人计算机附件的利用[J].管理观察,1997,0(3):34-35.
8刘勇.在线听歌我用客户端[J].电脑迷,2005,0(16):71-71.
9蔡心尧.检测数据的处理与表述[J].啤酒科技,2004(7):14-16.
10刘彦凯.德国信息资源开发利用的基本做法和启示[J].信息化建设,2008(6):45-47. 被引量：1

计算机技术与发展

2007年第6期

浏览历史

内容加载中请稍等...

基于XML的Web数据抽取研究被引量：5

参考文献5

二级参考文献20

共引文献57

同被引文献33

引证文献5

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

基于XML的Web数据抽取研究 被引量：5

参考文献5

二级参考文献20

共引文献57

同被引文献33

引证文献5

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

基于XML的Web数据抽取研究被引量：5