基于JavaScript等多链接分析的主题爬虫设计实现被引量：4

The Design and Implementation of Topic Crawler based on JavaScript and Other Multi-link Analysis

下载PDF

导出

摘要针对页面中的大量动态链接,提出了模拟浏览器的解析方式进行页面链接的提取,并设计实现了基于JaveScript等多链接分析的主题爬虫系统. In this article, for the large amount of dynamic linking in the page, the analytical simulation of the browser has been proposed to carry out the extraction of page links. It also designes and implementes topic crawler based on Jave.

作者刘兵

机构地区安徽工业职业技术学院信息系合肥工业大学计算机与信息学院

出处《许昌学院学报》 CAS 2010年第2期87-90,共4页 Journal of Xuchang University

关键词主题爬虫链接分析相关度 topic crawler link analysis correlation

分类号 TP182 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献5

1周立柱,林玲.聚焦爬虫技术研究综述[J].计算机应用,2005,25(9):1965-1969. 被引量：156
2杜光芹,张化祥,赵瑞东.主题Web挖掘研究[J].计算机技术与发展,2008,18(2):94-97. 被引量：3
3Liu H Y, Milios E, Janssen J. Focused Crawling by Learning HMM from User' s Topic - specific Browsing[ C ]. Proceedings of the web intelligence. IEEE/WIC/ACM International Conference on Web intelligence. Washington DC, USA:IEEE Computer Society ,2004.
4Guo Q,Guo H ,Zhang Z Q. Schema Driven Topic Specific Web crawling[ C]. Lecture Notes in Cimputer Science. Berlin'Heidelberg : Springer, 2005 : 594 - 599.
5Soumen Chakrabarti,Martin van den Berg, Byron Dom. Focused Crawling:A New Approach to Topic- Specific Web Resource Discovery [ J ]. Computer Networks, 1999,31 ( 11 ) : 1623 - 1640.

二级参考文献39

1陈康,武港山.基于Ontology的信息检索技术研究[J].中文信息学报,2005,19(2):51-57. 被引量：29
2王诚,张璟.基于语义的Web信息检索[J].计算机应用研究,2005,22(8):111-112. 被引量：3
3周立柱,林玲.聚焦爬虫技术研究综述[J].计算机应用,2005,25(9):1965-1969. 被引量：156
4EHRIG M, MAEDCHE A. Ontology-focused crawling of Web documents[A]. Proceedings of the 2003 ACM symposium on Applied computing[C], March 2003.
5GUO Q, GUO H, ZHANG ZQ, et al. Schema Driven Topic Specific Web Crawling[A]. DASFAA[C], 2005.
6GRAUPMANN J, BIWER M, ZIMMER C, et al. COMPASS: A Concept-based Web Search Engine for HTML, XML, and Deep Web Data[A]. Proceedings of the 30th VLDB Conference[C],2004.
7QIN JL, ZHOU YL, CHAU M. Building domain-specific web collections for scientific digital libraries: a meta-search enhanced focused crawling method[A]. Proceedings of the 4th ACM/IEEE-CS joint conference on Digital libraries[C], June 2004.
8CHO J , GARCIA - MOLINA H , PAGE L . Efficient crawling through URL ordering[A]. Proceedings of the seventh international conference on World Wide Web 7[C], April 1998.
9FLORESCU D, LEVY AY, MENDELZON AO. Database techniques for the world-wide web: A survey[J]. SIGMOD Record, 1998,27(3) :59 -74.
10LAWRENCE S, GILES CL. Searching the World Wide Web[J].Science, 1998,280(5360):98.

共引文献157

1齐虎春.高职化工院校网络化工数据采集课程实践研究[J].内蒙古石油化工,2020,46(10):88-90. 被引量：1
2杨学明,刘柏嵩.主题爬虫在数字图书馆中的应用[J].图书馆杂志,2007,26(8):47-50. 被引量：3
3张丽莎,张贵,龙朝夕,张盛.林业专题动态信息的搜索与集成[J].中南林业科技大学学报,2013,33(5):47-51. 被引量：3
4胡宏涛,常佳.基于网络的信息获取技术浅析[J].福建电脑,2006,22(4):60-61. 被引量：4
5李刚,周立柱,郭奇,林玲.领域相关的Web网站抓取方法[J].计算机科学,2007,34(2):137-140. 被引量：5
6孙素芬,罗长寿,张峻峰,于峰,张树亮.农业信息资源整合系统研究与应用[J].安徽农业科学,2007,35(22):6993-6994. 被引量：3
7王迁,王丽娜.对收费网站中作品提供链接的法律性质——评“娱乐基地”诉百度案[J].电子知识产权,2007(8):41-43.
8陈军,陈竹敏.基于网页分块的Shark-Search算法[J].山东大学学报（理学版）,2007,42(9):62-66. 被引量：7
9李兆春,谢庆生,徐立章.机械主题爬虫的设计与实现[J].现代机械,2007(6):68-70. 被引量：1
10杜光芹,张化祥,赵瑞东.主题Web挖掘研究[J].计算机技术与发展,2008,18(2):94-97. 被引量：3

同被引文献29

1彭轲,廖闻剑.基于浏览器服务的网络爬虫[J].硅谷,2009,2(4). 被引量：7
2信息产业部综合规划司.中国信息产业“十五”发展规划[C].北京:人民邮电出版社,2001..
3Wikipedia. Web crawler [EB/OL]. [2013-05-30]. http ://en.wiki- pedia.org/wiki/Web_crawler.
4University of Toronto. HTML and XHTML document type defi- nitions [EB/OL]. [2013-04-23]. http://www.utoronto.ca/webdocs/ HTMLdocs/HTML_Spec/html.html.
5Wikipedia. Regular expression [EB/OL]. [2013-04-23]. http://en. wikipedia.org/wiki/Regular_expression.
6World Wide Web Consortium. Document object model [EB/OL]. [2013-04-23]. http ://www.w3.org/DOM.
7ALVAREZ M, RAPOSO J, PAN A, et al. DeepBot: a focused crawler for accessing hidden web content [C]// Proceedings of DEECS 2007. New York, USA: ACM, 2007: 18-25.
8I WebKit Open Source Project. The WebKit open source project [EB/OL]. [2013-03-24]. http://www.webkit.org.
9WebKit Open Source Project. JavaScriptCore [EB/OL]. [2013- 03-24]. http ://trac.webkit.org/wiki/JavaScriptCore.
10w3af. w3af-open source web application security scanner [EB/ OL]. [2013-04-16]. http://www.w3af.org.

引证文献4

1郭津丞,冯超,张磊.基于WebKit的网络爬虫[J].现代电子技术,2013,36(18):62-64. 被引量：3
2谷茂恒.全国省市体育局官方网站建设的现状分析[J].现代企业教育,2014(16):539-540.
3王雪瑞,刘渊.面向国内直播行业的分布式弹幕爬虫研究[J].计算机应用与软件,2018,35(2):134-140. 被引量：5
4白琳,李雨蝶,尹世民.基于营销传播视角的“弹幕+”模式研究评述[J].河南科技大学学报（社会科学版）,2020,38(6):38-44. 被引量：4

二级引证文献12

1刘欣雨.基于弹幕的突发信息安全类事件舆情分析——以“滴滴平台下架”事件为例[J].情报工程,2022,8(4):85-109. 被引量：2
2孙龙,李彦.基于AJAX的深网爬虫设计[J].现代计算机,2017,23(19):72-75. 被引量：1
3王雪瑞,刘渊.面向国内直播行业的分布式弹幕爬虫研究[J].计算机应用与软件,2018,35(2):134-140. 被引量：5
4梁建胜,谭思敏.基于分布式禁忌人工蜂群算法的云视频直播优化算法[J].计算机应用与软件,2019,36(12):122-130. 被引量：2
5贾小云,杜晓旭.多维布隆算法在Redis指纹自动过期中的应用[J].计算机应用与软件,2020,37(8):33-38. 被引量：1
6白琳,李雨蝶,尹世民.基于营销传播视角的“弹幕+”模式研究评述[J].河南科技大学学报（社会科学版）,2020,38(6):38-44. 被引量：4
7秦怡绮.公共图书馆入驻哔哩哔哩视频网探究[J].江苏科技信息,2021,38(4):14-16. 被引量：6
8杨松,刘佳欣.基于Python多重解析的图像爬虫的设计与实现[J].工业控制计算机,2021,34(2):99-101. 被引量：3
9弓丽栋,尹建华.基于Octoparse的IPE环境数据采集[J].计算机技术与发展,2022,32(4):200-204.
10居雅雯.关于第三方专业弹幕数据处理机构的发展性分析[J].声屏世界,2022(23):98-101.

1杨芳萍,郭涛,门瑞,王虎,王艳丽.基于Android平台的手机查询系统的设计与实现[J].物联网技术,2015,5(4):66-68. 被引量：3
2李嘉,张朋柱,邓莎莎,蒋御柱.基于视觉的网页数据表格定位方法研究[J].情报科学,2009,27(6):928-932. 被引量：1
3卢体广,刘新,刘任任.微博数据通用抓取算法[J].计算机工程,2014,40(5):12-16. 被引量：5
4李斌.利用Google打造自己的词霸和快译[J].电脑编程技巧与维护,2010(9):79-81.
5刘麒,徐阳,吕婷,胡新磊,李华.基于HTML5 WebWorker组件的DDoS攻击方式和检测[J].计算机应用与软件,2016,33(12):295-300. 被引量：1
6孔晓霞,魏志强,王晓,江湛.基于Web服务的移动电子商务系统的设计与应用[J].中国海洋大学学报（自然科学版）,2005,35(6):1041-1044. 被引量：4
7陈免慧,沈炜.HtmlUnit在网上招聘系统中的应用[J].电脑知识与技术（过刊）,2015,21(7X):61-63.

许昌学院学报

2010年第2期

浏览历史

内容加载中请稍等...

基于JavaScript等多链接分析的主题爬虫设计实现被引量：4

参考文献5

二级参考文献39

共引文献157

同被引文献29

引证文献4

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

基于JavaScript等多链接分析的主题爬虫设计实现 被引量：4

参考文献5

二级参考文献39

共引文献157

同被引文献29

引证文献4

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

基于JavaScript等多链接分析的主题爬虫设计实现被引量：4