面向Web论坛的网络信息获取技术及系统实现被引量：7

The Web Forum Crawling Technology and System Implementation

下载PDF

导出

摘要网络爬虫技术是网络信息获取的重要手段,面向Web论坛的信息获取则是网络爬虫技术所面临的新课题。在分析和研究面向Web论坛信息获取技术的基础上,本文设计和实现了一种用于Web论坛信息获取的主题网络爬虫系统,根据Web论坛信息组织结构,提出了基于遍历策略的信息搜索技术;根据正文信息分布及论坛自身特点,提出了基于DOM与分块算法相结合的正文提取技术。实验结果表明,遍历策略比传统的网络爬虫遍历策略具有更高的效率,能够采集到更多主题相关度高的网页;经过噪声清洗处理后,有效提取网页正文,提高了信息采集精度。 The Web spider is very important in gathering information, which also faces new challenges when it＇s been used in crawling the Web forum. This paper mainly studies the basic technologies of crawling in the Web forum, designs and implements such a system, which is mainly used to gather the information of the Web forum. According to the information structure, a traversal strategy is proposed. Based on the distribution of the context, a DOM and block algorithm is proposed. The experimental result shows that the traversal strategy is more efficient than the traditional traverses to get those highly subjectrelevant Web pages, and after using the strategy for the context extracting of Web pages, effectively improves the accuracy of the information collection.

作者彭冬蔡皖东

机构地区西北工业大学计算机学院

出处《计算机工程与科学》 CSCD 北大核心 2011年第1期157-160,共4页 Computer Engineering & Science

基金国家863计划资助项目(2009AA01Z424) 2009届西北工业大学本科毕业设计重点扶持项目

关键词网络爬虫 WEB论坛正文提取主题相关度 web spider web forum context extracting subject relevant

分类号 TP393 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1张博,蔡皖东.面向主题的网络蜘蛛技术研究及系统实现[J].微电子学与计算机,2009,26(5):52-55. 被引量：13
2刘金红,陆余良.主题网络爬虫研究综述[J].计算机应用研究,2007,24(10):26-29. 被引量：132
3时达明,林鸿飞,杨志豪.基于网页框架和规则的网页噪音去除方法[J].计算机工程,2007,33(19):276-278. 被引量：17
4郭坤银,邢永康.基于Web标准的页面分块算法研究[J].微处理机,2009,30(6):58-61. 被引量：2
5汪涛,樊孝忠.主题爬虫的设计与实现[J].计算机应用,2004,24(S1):270-272. 被引量：40
6林海霞,原福永,陈金森.主题网络蜘蛛搜索策略贪婪性解决方法[J].微电子学与计算机,2006,23(z1):278-280. 被引量：4
7宋宇,孟祥增.基于改进Fish-search算法的多媒体检索[J].计算机工程,2008,34(11):189-190. 被引量：8
8杨俊,李志蜀.基于DOM的WEB主题信息抽取[J].四川大学学报（自然科学版）,2008,45(5):1077-1080. 被引量：11

二级参考文献60

1林海霞,原福永,陈金森.主题网络蜘蛛搜索策略贪婪性解决方法[J].微电子学与计算机,2006,23(z1):278-280. 被引量：4
2封化民,刘飚,刘艳敏,方勇,宋国森.含有位置坐标树的Web页面分析和内容提取框架[J].清华大学学报（自然科学版）,2005,45(S1):1767-1771. 被引量：8
3欧健文,董守斌,蔡斌.模板化网页主题信息的提取方法[J].清华大学学报（自然科学版）,2005,45(S1):1743-1747. 被引量：70
4荆涛,左万利.基于可视布局信息的网页噪音去除算法[J].华南理工大学学报（自然科学版）,2004,32(z1):84-87. 被引量：21
5张志刚,陈静,李晓明.一种HTML网页净化方法[J].情报学报,2004,23(4):387-393. 被引量：57
6吴丽辉,王斌,余智华.一个基于Web的信息获取系统的框架与实现[J].微电子学与计算机,2004,21(10):121-123. 被引量：2
7周立柱,林玲.聚焦爬虫技术研究综述[J].计算机应用,2005,25(9):1965-1969. 被引量：156
8李卫,刘建毅,何华灿,王枞.基于主题的智能Web信息采集系统的研究与实现[J].计算机应用研究,2006,23(2):163-166. 被引量：15
9Lan Yi, Bing Liu. Web page cleaning for web mining through feature weighting [ C ]. International Joint Conference on Artificial Intelligence (IJCAI),Acapulco:IJCAI, 2003.
10Y Chen,X Xie, WY Ma, HJ Zhang. Adapting Web pages for small - screen devices [ J ]. Internet Computing, IEEE, 2005,9( 1 ) :50 - 56.

共引文献210

1刘小强.二手转让及房产租售垂直搜索引擎的设计与实现[J].三门峡职业技术学院学报,2010,9(3):107-110. 被引量：2
2赵志滨,贾岩峰,姚兰,鲍玉斌.含有丰富结构化数据的Web页面分类技术的研究[J].计算机研究与发展,2013,50(S1):53-60. 被引量：5
3邱均平,张洋.网络信息计量学综述[J].高校图书馆工作,2005,25(1):1-12. 被引量：44
4汪涛,樊孝忠.链接分析对主题爬虫的改进[J].计算机应用,2004,24(B12):174-176. 被引量：12
5姜杰,杨晓江.专业搜索引擎分布式Robot的设计研究[J].中国电化教育,2005(6):95-97. 被引量：4
6刘洁清,吴京慧.面向主题的个人实时搜索引擎的设计与实现[J].现代图书情报技术,2006(5):40-43. 被引量：6
7李广丽,刘觉夫.面向URL的网络机器人软件模型的研究与实现[J].华东交通大学学报,2007,24(1):67-70.
8李树青,崔北亮.基于个性化信息推荐服务的Web搜索引擎技术综述[J].情报杂志,2007,26(8):98-101. 被引量：12
9王冬,汪文彬,陈德祥.Web中文搜索引擎研究[J].现代电子技术,2008,31(4):74-77. 被引量：2
10尹江,尹治本,黄洪.网络爬虫效率瓶颈的分析与解决方案[J].计算机应用,2008,28(5):1114-1116. 被引量：18

同被引文献64

1钟锃光.经济学家也要学点网络爬虫技术——漫谈爬虫技术与经济数据收集[J].经济资料译丛,2014(2):94-100. 被引量：3
2周立柱,林玲.聚焦爬虫技术研究综述[J].计算机应用,2005,25(9):1965-1969. 被引量：156
3李魁,程学旗,郭岩,张凯.WWW论坛中的动态网页采集[J].计算机工程,2007,33(6):80-82. 被引量：11
4MA Huifang. Hot topic extraction using time window[C]//IEEE International conference on machine learning and cybernetics(ICMLC). Guilin, China, 2011: 56-60.
5LIU Zheng, Yu J X. Discovering burst areas in fast evolving graphs[C]//The 15th International Conference on Database Systems for Advanced Applications (DASFAA). Tsukuba, Japan, 2010: 171-185.
6Saito K, Ohara K, Kimura M, et al. Burst detection in a sequence of tweets based on information diffusion model[C]//Tbe 15th International Conference on Discovery Science. Lyon, France, 2012: 239-253.
7ZHU Mingliang, HU Weiming, WU Ou. Topic detection and tracking for threaded discussion communities[C]//2008 IEEE/WIC/ACM International Conference on Web Intelligence and Intelligent Agent Technology. Sydney, Australia, 2008: 77-83.
8祝华新,单学刚,胡江春.2011年中国互联网舆情分析报告[EB/OL].http://yuqing.people.com.cn/n/2012/0727/c209170-18615551.html,2012-07-07.
9Chen C C, Chen Y T, Sun Y, et al. Life cycle modeling of news events using aging theory[C]//The 14th European Conference on Machine Learning(ECML). Cavtat-Dubrovnik, Croatia, 2003: 47-59.
10Gaito S, Zignani M, Rossi G P, et al. On the bursty evolution of online social networks[C]//ACM International Workshop on Hot Topics on Interdisciplinary Social Networks Research (Hot Social). New York, USA, 2012: 1-8.

引证文献7

1徐会杰,蔡皖东,陈桂茸.面向论坛的突发性热点话题快速发现与跟踪[J].中南大学学报（自然科学版）,2014,45(8):2648-2653. 被引量：2
2马国富.网络论坛类媒体舆情热点主动发现的方法[J].重庆科技学院学报（社会科学版）,2015(3):7-8.
3陈桂茸,蔡皖东,王蓉,张凤琴,蒋华.一种网络论坛水军账号快速检测算法[J].湖南大学学报（自然科学版）,2015,42(4):114-120. 被引量：4
4程杜新,傅魁.基于Nutch的Web论坛分块采集系统[J].图书馆学研究,2017(7):56-60. 被引量：1
5贺冠博,苏宇琦,黄源.网络爬虫技术在电力产业中的应用[J].电子技术与软件工程,2017(18):17-18. 被引量：3
6张章学.社交网络敏感数据获取方法研究[J].软件导刊,2018,17(3):56-58. 被引量：1
7张胜霞,徐鸿雁,郭进.基于商业智能的大学生网络招聘信息系统分析[J].电子测试,2013,24(6X):77-78. 被引量：1

二级引证文献12

1杨臻,张明慧,肖汉.基于多特征的网络水军识别方法[J].激光杂志,2016,37(12):110-113. 被引量：3
2毛鑫,张小龙,周颖.桌面终端安全管理指标集中监测工具的设计与实现[J].电力信息与通信技术,2018,16(1):56-60.
3程传鹏,张书钦,刘小明,夏敏捷.基于特定话题的网络水军识别研究[J].中原工学院学报,2018,29(4):64-69. 被引量：3
4刁洪祥.话题检测与跟踪关键技术研究[J].信息与电脑,2016,28(7):31-32. 被引量：1
5李雅楠.商业智能信息系统项目管理的相关研究[J].信息与电脑,2018,30(24):104-105.
6边玉宁,李业丽,孙彦雄.基于协同过滤算法的图书出版选题系统的设计与实现[J].北京印刷学院学报,2018,26(12):38-41. 被引量：1
7张扬,范岩,夏玲玲,陈俊安,王沁.微博用户信息采集分析系统设计与实现[J].软件导刊,2019,18(9):125-129. 被引量：2
8李广建,陈瑜,张庆芝.新中国70年现代图书情报技术研究与实践[J].图书馆杂志,2019,38(11):4-20. 被引量：9
9林杰,杨兆洁.用户网络行为特征与专业知识水平——基于“汽车之家”注册用户的实证研究[J].管理评论,2021,33(5):331-340. 被引量：2
10王奕文,张如玉,刘昕,张琼声,田红磊,曹帅.基于并行关联规则的话题演化跟踪方法[J].计算机工程与设计,2021,42(12):3555-3561.

1杨丽萍.网页正文提取技术的分析与研究[J].计算机光盘软件与应用,2012,15(22):115-116. 被引量：1
2熊忠阳,蔺显强,张玉芳,牙漫.结合网页结构与文本特征的正文提取方法[J].计算机工程,2013,39(12):200-203. 被引量：15
3王瑞,周喜,李晓.基于正文相关度的维吾尔网页正文提取[J].计算机工程,2012,38(21):153-156. 被引量：2
4万隆昌,聂承启.基于FP-Tree的遍历算法[J].江西师范大学学报（自然科学版）,2005,29(6):481-484.
5高伟锋.基于Heritrix的主题网络爬虫设计与实现[J].南宁职业技术学院学报,2011,16(1):97-100. 被引量：3
6陈丹.网络搜索引擎的发展及使用技巧[J].办公自动化（综合月刊）,2014(1):57-57.
7李国健.基于文本的网络图像信息搜索技术[J].电子技术与软件工程,2014(14):115-115.
8巧用地址栏搜索[J].电脑爱好者,2003(16):69-69.
9王庆民.互联网搜索引擎的发展、应用和特点[J].农业网络信息,2009(5):98-101. 被引量：3
10钮大骞.网络信息获取及识别分析技术研究[J].中国原子能科学研究院年报,2008(1):299-299.

计算机工程与科学

2011年第1期

浏览历史

内容加载中请稍等...

面向Web论坛的网络信息获取技术及系统实现被引量：7

参考文献8

二级参考文献60

共引文献210

同被引文献64

引证文献7

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

面向Web论坛的网络信息获取技术及系统实现 被引量：7

参考文献8

二级参考文献60

共引文献210

同被引文献64

引证文献7

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

面向Web论坛的网络信息获取技术及系统实现被引量：7