增量更新Crawler进行Web收集方法研究被引量：2

CMIU:A Web Crawler Method of Increment Updating

下载PDF

导出

摘要本文针对目前Web信息挖掘中存在的各种问题,对网络爬虫系统进行研究,提出了一种基于HTTP协议原理、旨在减少网络爬虫系统运行时网络流量的Web页面收集方法———增量更新Crawler方法。该方法通过Web预取技术对现有的Web链接数据库进行演化更新,可以在减少网络流量的同时获得接近现有网络爬虫系统的效果。 Face to the problems which exist in Web information mining the paper studies network crawler systems,and proposes a HTTP-based crawling method of in crement updating for reducing the network flow when a network crawler system runs. The method updates the current Web link database by the Web prefetch technique, and shows the effect close to the current network crawler systems when reducing the network flow.

作者程菲汪建海罗键

机构地区厦门大学自动化系

出处《计算机工程与科学》 CSCD 2006年第12期28-30,98,共4页 Computer Engineering & Science

关键词信息检索网络爬虫增量更新 information retrieval web crawler increment updating

分类号 TP393.09 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1J Cho,H Garcia-Molina.Parallel Crawlers[J].Proc of the 11th Int'l World Wide Web Conf[C].2002.124-135.
2E Fredkin.Trie Memory[J].Communication of the ACM,1960,3(9):490-500.
3E Amitay.Anchors in Context:Acorpus Analysis of Web Pages Authoring Conventions[J].L Pemberton,S Shurville,eds.Words on the Web-Computer Mediated Communication[M].Intellect Books,1999.
4M Richardson,P Domingos.The Intelligent Surfer:Probabilistic Combination of Link and Content Information in PageRank.Volume 14[M].Cambridge,MA:MIT Press,2002.

同被引文献22

1孟涛,闫宏飞,王继民.一个增量搜集中国W eb的系统模型及其实现[J].清华大学学报（自然科学版）,2005,45(S1):1882-1886. 被引量：7
2孟涛,闫宏飞,王继民.Web网页信息变化的时间局部性规律及其验证[J].情报学报,2005,24(4):398-406. 被引量：8
3孟涛,王继民,闫宏飞.网页变化与增量搜集技术[J].软件学报,2006,17(5):1051-1067. 被引量：22
4KIM S J, LEE S H. An empirical study on the change of Web pages [ C]// Proceedings of the 7th Asia-Pacific Web Conference on Web Technologies Research and Development: APWeb 2005, LNCS 3399. Heidelberg: Springer-Verlag, 2005:632-642.
5北大网络实验室.Web InfoMall[EB/OL].[2008-08-11].http://www.infomall.cn/.
6CHO J, GARCIA-MOLINA H. Parallel crawlers[ C]// Proceedings of the 11th International Conference on World Wide Web: WWW 2002. New York: ACM Press, 2002: 124- 135.
7CHO J, GARCIA-MOLINA H. The evolution of the Web and implications for an incremental crawler[ C]//Proceedings of the 26th International Conference on Very Large Databases. San Francisco: Morgan Kaufmann Publishers, 2000:200 - 209.
8FETTERLY D, MANASSE M, NAJORK M, et al. A large-scale study of the evolution of Web pages[ C]// Proceedings of the 12th International Conference on World Wide Web. New York: ACM Press, 2003:669-678.
9SALTON G, BUCKLEY C. Term-weighting approaches in automatic retrieval[ J]. Information Processing and Management, 1998, 24 (5): 513-523.
10中国互联网络信息中心.第27次中国互联网络发展状况统计报告[R],2011.

引证文献2

1徐文杰,陈庆奎.增量更新并行W eb爬虫系统[J].计算机应用,2009,29(4):1117-1119. 被引量：8
2杨眉.网页更新预测算法研究现状[J].软件导刊,2013,20(4):57-59. 被引量：2

二级引证文献10

1王二红,寿永熙,马志强,李静.多线程搜索器的设计与实现[J].内蒙古农业大学学报（自然科学版）,2010,31(3):272-276. 被引量：2
2王坛.出版社书目数据集成系统的设计与实现[J].南阳师范学院学报,2010,9(12):64-67. 被引量：1
3吴华亮.企业工商注册信息自动搜集软件的功能研究[J].商情,2012(2):218-218.
4赵莹.基于ASP．NET的复用导出模型设计[J].商情,2012(18):220-220.
5杨眉.网页更新预测算法研究现状[J].软件导刊,2013,20(4):57-59. 被引量：2
6冯凯,陈军,王鹃,王勇.基于统计学的Web论坛增量更新策略研究[J].计算机应用与软件,2017,34(6):31-36. 被引量：1
7陈欢,黄勃,刘文竹,高永彬,姜晓燕.基于Python的网络新闻爬虫与检索[J].软件导刊,2019,18(5):168-171. 被引量：10
8郭刚,唐萍峰,叶林佶,杨超.基于爬虫技术的政策数据应用研究[J].信息系统工程,2022,35(7):56-59. 被引量：1
9吴昊,杨亚仿,谭荣丽.基于C#.net的网页内容获取及应用研究[J].信息与电脑,2022,34(22):48-51. 被引量：1
10杨亚仿,吴昊.网页更新检测的研究与应用[J].信息与电脑,2022,34(23):150-154.

1张玮,何瑶,周雪莹.基于游标的自动气象站分钟级数据导入[J].电脑编程技巧与维护,2011(12):51-52.
2李俐君.数据库的网络应用[J].科技资讯,2005,3(25):75-76.
3张建明,陈婉.数据库设计过程中的ER方法与实践[J].计算机世界月刊,1989(8):56-58.
4朴光秉.文献检索系统开发研究[J].黑龙江科技信息,2015(31).
5吉向东.基于Crawler技术的超链接测试系统[J].信息技术,2009,33(9):106-108.
6李锦,赵连风.基于Web的试题库管理系统设计[J].辽宁师范大学学报（自然科学版）,2002,25(2):159-160. 被引量：4
7田冠伟,汤文成,张远建.基于面向对象的技术的AutoCad数据库开发[J].制造业自动化,2003,25(7):9-9. 被引量：1
8杨默然,张继山.基于Linux的网络爬虫系统改进研究[J].黑龙江科技信息,2013(9):115-115.
9牛伟,张延园.Web预取技术的研究[J].微计算机应用,2008,29(7):90-94. 被引量：2
10饶军,华申峰,吴晓璐.关于互联网视听节目监测中网络爬虫的应用研究[J].江西通信科技,2015(3):34-36. 被引量：1

计算机工程与科学

2006年第12期

浏览历史

内容加载中请稍等...

增量更新Crawler进行Web收集方法研究被引量：2

参考文献4

同被引文献22

引证文献2

二级引证文献10

相关作者

相关机构

相关主题

浏览历史

增量更新Crawler进行Web收集方法研究 被引量：2

参考文献4

同被引文献22

引证文献2

二级引证文献10

相关作者

相关机构

相关主题

浏览历史

增量更新Crawler进行Web收集方法研究被引量：2