XML的DOM树结构在WEB挖掘中的应用被引量：2

Application of XML's DOM Tree in WEB Data Mining

下载PDF

导出

摘要面对飞速发展的信息时代,WEB数据的挖掘日益重要,而传统的搜索引擎难以胜任对数据的挖掘处理。基于XML良好的结构性和层次性,提出了利用DOM树进行WEB挖掘的方法。首先利用Tidy工具库将WEB数据转换成良好结构的XML文件,简化生成DOM树,然后通过遍历解析XML的DOM树结构,提取需要的WEB信息,实现对WEB数据挖掘。实验表明,该方法能够方便地对数据进行结构化存储和信息处理。 Facing with the rapidly development of the information age, WEB data mining become increasingly important, and traditional search engines can not do the mining processing of data. So the method that takes advantage of the DOM tree for WEB mining is put forward based on good structure and level of XML. First WEB data is transformed into XML file for good structure by tool library, DOM tree is simplely produced, then the heedell WEB information can be extracted through the traversal and parsing of DOM tree structure of XML to realize the WEB data mining. Experiments show that the method is easy for structured data storage and information processing.

作者卢远征叶晓彤

机构地区四川理工学院自动化与电子信息学院四川理工学院网络管理中心

出处《四川理工学院学报（自然科学版）》 CAS 2013年第3期64-67,共4页 Journal of Sichuan University of Science & Engineering(Natural Science Edition)

基金四川理工学院研究生创新基金项目(y2012007)

关键词 WEB挖掘 XML Tidy DOM树 WEB Mining XML Tidy DOM Tree

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1陈金森,原福永,张园园.XML搜索引擎研究[J].图书情报工作,2007,51(1):114-117. 被引量：2
2钱程,阳小兰.HTML到XML转换研究[J].计算机与现代化,2011(8):39-41. 被引量：2
3秦鸿.基于Web的数据挖掘[J].电子科技大学学报,2002,31(S1):56-59. 被引量：7
4黄磊,黄汉永.XML技术在Web挖掘中的应用[J].信息技术,2003,27(5):6-7. 被引量：2
5李霞,蒋盛益.基于DOM树及行文本统计去噪的网页文本抽取技术[J].山东大学学报（理学版）,2012,47(3):38-42. 被引量：4
6熊一利,徐鹏.基于XML的网页数据挖掘[J].科技广场,2010(1):73-75. 被引量：2
7余静,刘万军.基于网页分块的主题爬虫研究[J].计算机与信息技术,2008(10):83-84. 被引量：1
8李龙,李丽丽,高玲.一种网络课程答疑系统分词器的设计[J].河北工程大学学报（自然科学版）,2012,29(2):68-70. 被引量：1

二级参考文献58

1朱云霞,周海峰.基于WEB的智能答疑系统的研究与设计[J].科技信息,2009(1):413-414. 被引量：2
2曲卫民,孙乐,孙玉芳.半结构化中文信息检索中查询结果相关度算法的研究[J].中文信息学报,2004,18(4):15-22. 被引量：2
3史艳,李伟生.基于XML的搜索引擎技术的研究与设计[J].计算机工程与设计,2004,25(9):1488-1491. 被引量：10
4于满泉,陈铁睿,许洪波.基于分块的网页信息解析器的研究与设计[J].计算机应用,2005,25(4):974-976. 被引量：55
5王齐,陶世群.一种基于文本节点的XML文档索引[J].山西大学学报（自然科学版）,2005,28(2):142-146. 被引量：2
6文庭孝.汉语自动分词研究进展[J].图书与情报,2005(5):54-63. 被引量：20
7孔令波,唐世渭,杨冬青,王腾蛟,高军.XML数据索引技术[J].软件学报,2005,16(12):2063-2079. 被引量：55
8王志琪,王永成.HTML文件的文本信息预处理技术[J].计算机工程,2006,32(5):46-48. 被引量：12
9蔡冠群,张业睿,袁晓斌.构筑基于Web的远程答疑系统[J].信息技术教育,2006(3):75-76. 被引量：1
10谢佳,王克峰.XML在数据交换中的应用[J].现代电子技术,2006,29(9):108-109. 被引量：2

共引文献13

1丁瑾.基于Web数据挖掘的综述[J].科技情报开发与经济,2004,14(12):267-268. 被引量：4
2王斌.浅析数据挖掘的主要方法和研究方向[J].计算机仿真,2005,22(10):1-3. 被引量：8
3丁瑾,蒋华.数字档案馆中多媒体数据挖掘技术研究[J].浙江水利水电专科学校学报,2005,17(4):51-53. 被引量：2
4丁瑾.多媒体数据挖掘技术在数字档案中的应用[J].兰台世界（上旬）,2006(11X):11-12. 被引量：1
5张向锋,丁斗章.基于免疫学习算法的Web数据挖掘方法[J].上海电机学院学报,2007,10(3):213-216. 被引量：4
6胡双双,秦杰.搜索引擎技术及其发展趋势[J].福建电脑,2008,24(6):32-33. 被引量：2
7牛彦成,包莹.Web数据挖掘中XML的应用研究[J].电脑知识与技术,2011,7(1):13-15. 被引量：1
8金艳云.Web数据挖掘综述[J].现代计算机,2012,18(22):17-19.
9李爱飞,冀振燕,王经纬.一种基于页面价值和跳转偏爱度挖掘频繁访问路径的模型[J].计算机系统应用,2013,22(3):96-99.
10彭伟.Web气象信息树型提取算法与LED显示设计[J].实验室研究与探索,2013,32(1):203-208. 被引量：1

同被引文献12

1张永瑞.基于HTML5的Web离线技术在技能训练导学平台中的应用[J].长江大学学报（自科版）（上旬）,2013,10(10):37-39. 被引量：3
2谢秋华.Web文本挖掘的相关技术问题探讨[J].长春理工大学学报（自然科学版）,2010,33(7):55-56. 被引量：3
3刘维晓,陈俊丽,屈世富,万旺根.一种改进的Apriori算法[J].计算机工程与应用,2011,47(11):149-151. 被引量：35
4雷丽.基于ASP.NET学生选课系统的设计与实现[J].重庆文理学院学报（自然科学版）,2012,31(2):72-74. 被引量：5
5李慧云,何震苇,李丽,陆钢.HTML5技术与应用模式研究[J].电信科学,2012,28(5):24-29. 被引量：63
6朱远文,张煜,常畅,王春东.基于Cookie的安全防护技术研究[J].信息网络安全,2012(9):46-49. 被引量：4
7蹇红梅.WEB平台下的基于HTML5标准离线应用开发[J].四川理工学院学报（自然科学版）,2012,25(5):41-44. 被引量：4
8罗大晖,陈娟.基于HTML5的Web离线应用研究与实现[J].计算机应用与软件,2012,29(12):262-264. 被引量：16
9石正喜,葛科奇,曹财耀.基于关联规则的数据挖掘算法研究[J].计算机与网络,2013,39(6):62-64. 被引量：6
10张青凤,张凤琴,王磊.多数据中心的数据同步模型研究与设计[J].微型机与应用,2013,32(12):60-62. 被引量：10

引证文献2

1谢娜,戚晓明,朱洪浩,郭有强.半结构化多Web文本数据挖掘的研究[J].齐齐哈尔大学学报（自然科学版）,2015,31(2):75-78. 被引量：3
2刘耀钦.基于HTML5的Web离线应用研究与探讨[J].河南工程学院学报（自然科学版）,2015,27(1):77-80. 被引量：4

二级引证文献7

1刘耀钦.基于HTML5跨域通信技术的客户端数据同步机制研究[J].现代计算机,2015,21(11):65-68. 被引量：3
2高玉娟.Web数据挖掘研究综述[J].工业控制计算机,2016,29(1):113-115. 被引量：2
3瞿苏.基于HTML5构建离线Web应用的研究与探讨[J].佛山科学技术学院学报（自然科学版）,2016,34(3):61-64. 被引量：1
4刘娟,宋安军.改进FP-growth算法在气象预报中的应用[J].计算机系统应用,2016,25(10):199-204. 被引量：5
5田昊宇,马义.Native XML数据库在电子病历存储中的应用分析[J].软件,2017,38(10):202-206.
6黄皓.WebSQL在关系数据库教学中的应用[J].福建电脑,2020,36(12):185-187.
7刘耀钦.HTML5中Web Works应用实践与研究[J].郧阳师范高等专科学校学报,2015,35(3):38-41.

1Tidy Start Menu开始菜单“大扫除”[J].网友世界,2009(17):22-22.
2李青伟,逄焕利,李艳波.数据抽取在征信系统中的应用[J].科技创新导报,2009,6(1):27-27.
3李青伟,逄焕利,李艳波.数据抽取在征信系统中的应用[J].科技创新导报,2009,6(2):213-213.
4张奇,郝志峰,温雯,蔡瑞初.基于互信息度量的Web信息抽取[J].计算机应用与软件,2013,30(12):15-18. 被引量：5
5彭文滔,叶飞跃,李霞,员红娟.信息抽取中基于DOM树的过滤器方法的研究[J].微计算机信息,2008,24(30):217-219. 被引量：4
6张艳琳.整理好您的“开始菜单”[J].办公自动化,2006(18):58-58.
7郑跃平,陈传峰.基于XML的WEB数据收集的一种应用[J].福建电脑,2005,21(12):1-2. 被引量：1
8李哲琦,张莹.基于XML的Web半结构化信息抽取[J].长春理工大学学报（自然科学版）,2007,30(1):66-68. 被引量：3
9朱青,吕晓旭.基于机器学习的HTML标题抽取[J].微计算机信息,2010,26(9):15-16. 被引量：4
10欧建雄,张礼平.HTML数据内容的抽取与集成[J].华东理工大学学报（自然科学版）,2003,29(6):613-616. 被引量：8

四川理工学院学报（自然科学版）

2013年第3期

浏览历史

内容加载中请稍等...

XML的DOM树结构在WEB挖掘中的应用被引量：2

参考文献8

二级参考文献58

共引文献13

同被引文献12

引证文献2

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

XML的DOM树结构在WEB挖掘中的应用 被引量：2

参考文献8

二级参考文献58

共引文献13

同被引文献12

引证文献2

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

XML的DOM树结构在WEB挖掘中的应用被引量：2