微博数据通用抓取算法被引量：5

Universal Crawling Algorithm for Microblogging Data

下载PDF

导出

摘要目前常用的网络爬虫和基于微博API抓取数据的算法很难满足舆情系统对微博数据的需求。为此,提出一种模拟浏览器登录微博抓取网页数据的算法,以方便地获取任意微博用户网页上的所有数据。通过微博用户之间的关系构建用户网络,并通过该网络发现新用户。为获取微博上有质量的数据,建立一个完整的数学模型,根据用户的发帖数、发帖频率、粉丝数、转发数、评论数等因素来计算用户影响力,以影响力为主要因子构建优先队列,使得影响力越大的用户数据采集频率越高,同时计算时间间隔以兼顾非活跃用户的数据获取。实验结果表明,该算法具有通用性强、完全无需人工干预、获取信息的质量高、速度快等优点。 Currently, Web crawler and microblog API which are used to grab data from the microblog are difficult to satisfy the public opinion system demands for microblog data. To settle the problem, this paper presents a feasible solution which is the similar as the browser login microblog to capture data from Web pages. It can easily get all data from any microblog users. On this basis, it constructs a microblogging network through interconnections among users, and discovers new users through it. In order to get high quality data, it builds mathematical models to calculate the user’s influence index by using posting number, posting frequency, fans number, forwarding number and comments number. Moreover, it builds priority queue according to the calculated influence factor, which let those that have bigger influence index have high acquisition frequency. Finally, it calculates time interval to balance the lower frequency of non-active microblog user. The experimental results show that this method not only processes easily and has higher speed but also can obtain high quality information and have huge versatility.

作者卢体广刘新刘任任

机构地区湘潭大学信息工程学院智能计算与信息处理教育部重点实验室

出处《计算机工程》 CAS CSCD 2014年第5期12-16,20,共6页 Computer Engineering

基金湖南省自然科学基金资助项目(12JJ3066) 湖南省高校科技成果产业化培育基金资助项目(11CY018) 湖南省重点学科基金资助项目

关键词微博数据模拟登录用户网络用户影响力网络舆情优先队列 microblogging data analog login user network user influence Internet public opinion priority queue

分类号 TP301.6 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献3

1周立柱,林玲.聚焦爬虫技术研究综述[J].计算机应用,2005,25(9):1965-1969. 被引量：156
2于洪,杨显.微博中节点影响力度量与传播路径模式研究[J].通信学报,2012,33(S1):96-102. 被引量：27
3戴月卿,钟玲,林柏钢,陈明志.基于微博的人物关系网络挖掘系统[J].信息网络安全,2013(2):83-86. 被引量：4

二级参考文献39

1解(亻刍),汪小帆.复杂网络中的社团结构分析算法研究综述[J].复杂系统与复杂性科学,2005,2(3):1-12. 被引量：86
2EHRIG M, MAEDCHE A. Ontology-focused crawling of Web documents[A]. Proceedings of the 2003 ACM symposium on Applied computing[C], March 2003.
3GUO Q, GUO H, ZHANG ZQ, et al. Schema Driven Topic Specific Web Crawling[A]. DASFAA[C], 2005.
4GRAUPMANN J, BIWER M, ZIMMER C, et al. COMPASS: A Concept-based Web Search Engine for HTML, XML, and Deep Web Data[A]. Proceedings of the 30th VLDB Conference[C],2004.
5QIN JL, ZHOU YL, CHAU M. Building domain-specific web collections for scientific digital libraries: a meta-search enhanced focused crawling method[A]. Proceedings of the 4th ACM/IEEE-CS joint conference on Digital libraries[C], June 2004.
6CHO J , GARCIA - MOLINA H , PAGE L . Efficient crawling through URL ordering[A]. Proceedings of the seventh international conference on World Wide Web 7[C], April 1998.
7FLORESCU D, LEVY AY, MENDELZON AO. Database techniques for the world-wide web: A survey[J]. SIGMOD Record, 1998,27(3) :59 -74.
8LAWRENCE S, GILES CL. Searching the World Wide Web[J].Science, 1998,280(5360):98.
9CHAKRABARTI S, VAN DEN BERG M, DOM B. Focused crawling: A new approach to topicspecific web resource discovery[A].Proceedings of the Eighth International World-Wide Web Conference[C], 1999.
10DAVULCU H, KODURI S, NAGARAJAN S. Datarover: a taxonomy based crawler for automated data extraction from data-intensive websites[A]. Proceedings of the 5th ACM international workshop on Web information and data management[C], November 2003.

共引文献184

1齐虎春.高职化工院校网络化工数据采集课程实践研究[J].内蒙古石油化工,2020,46(10):88-90. 被引量：1
2杨学明,刘柏嵩.主题爬虫在数字图书馆中的应用[J].图书馆杂志,2007,26(8):47-50. 被引量：3
3张丽莎,张贵,龙朝夕,张盛.林业专题动态信息的搜索与集成[J].中南林业科技大学学报,2013,33(5):47-51. 被引量：3
4赖清楠,马皓,宋维佳,李婷婷,蒋广学,张蓓.高校BBS与微博的用户社交行为特征分析[J].通信学报,2013,34(S2):99-106. 被引量：3
5胡宏涛,常佳.基于网络的信息获取技术浅析[J].福建电脑,2006,22(4):60-61. 被引量：4
6李刚,周立柱,郭奇,林玲.领域相关的Web网站抓取方法[J].计算机科学,2007,34(2):137-140. 被引量：5
7孙素芬,罗长寿,张峻峰,于峰,张树亮.农业信息资源整合系统研究与应用[J].安徽农业科学,2007,35(22):6993-6994. 被引量：3
8王迁,王丽娜.对收费网站中作品提供链接的法律性质——评“娱乐基地”诉百度案[J].电子知识产权,2007(8):41-43.
9陈军,陈竹敏.基于网页分块的Shark-Search算法[J].山东大学学报（理学版）,2007,42(9):62-66. 被引量：7
10李兆春,谢庆生,徐立章.机械主题爬虫的设计与实现[J].现代机械,2007(6):68-70. 被引量：1

同被引文献42

1薛澜,钟开斌.突发公共事件分类、分级与分期:应急体制的管理基础[J].中国行政管理,2005(2):102-107. 被引量：329
2周立柱,林玲.聚焦爬虫技术研究综述[J].计算机应用,2005,25(9):1965-1969. 被引量：156
3王来华.舆情变动规律初论[J].学术交流,2005(12):155-159. 被引量：57
4中国互联网信息中心.第33次中国互联网络发展状况统计报告[EB/OL].http://www.cnnic.net.cn/hlwfzyj/hlwxzbg/hlwtjbg/201403/t20140305_46240.htm,2014/3/5.
5新浪网.新浪微博开放平台APL[EB/OL].http://open.weibo.com/wiki/接口访问频次权限.
6crifan.关于抓取网页,分析网页内容,模拟登陆网站的逻辑/流程和注意事项.[EB/0L].http://www.crifan.com/summary_about_flow process_of fetch_webpage_simulate_login_website and some_not- ice/.
7高森.Python网络编程基础[M].北京:电子工业出版社.2007:326.
8Cheerio.Open source connections[M/OL].[2014-09-30].http://www.cheeriojs.github.io Cheerio.
9中国互联网络信息中,心.第36次中国互联网络发展状况统计报告[EB/OL].http://www.cnnic.cn/hlwfzyj/hlwxzbg/hlwtjbg/201507/P020150723549500667087.pdf,2015-09-01.
10Ma, Y. P.,Shu,X. M.,Shen , S. F. Study on Network Public Opinion Dissemination and Coping Strategies in Large FireDisasters[ J], Procedia Engineering, 2014,71(1) :616-621.

引证文献5

1刘艳平,俞海英,戎沁.Python模拟登录网站并抓取网页的方法[J].微型电脑应用,2015,31(2):58-60. 被引量：16
2俞忻峰.社交网络挖掘方案研究[J].现代电子技术,2015,38(4):25-29. 被引量：4
3孙康,张超,张英菊.基于大数据的危险化学品事故网络舆情研究——以天津港“8·12”爆炸事故为例[J].东北财经大学学报,2016,17(2):64-70. 被引量：3
4田霏霏,沈记全.基于用户影响力的微博数据提取算法[J].计算机应用与软件,2017,34(1):55-61. 被引量：2
5吕鹏辉.基于网络爬虫的新浪微博数据获取方式研究[J].电脑知识与技术,2017,13(11X):9-12. 被引量：3

二级引证文献28

1谭春辉,郝晓月.高校突发事件网络舆情传播影响因素的组态分析——基于32个案例的模糊集定性比较分析[J].知识管理论坛,2022(3):248-260. 被引量：6
2郭林.一种基于社交媒体短链接的网页舆情热点数据挖掘方法[J].软件导刊,2015,14(11):139-141. 被引量：2
3陈琳,任芳.基于Python的新浪微博数据爬虫程序设计[J].信息系统工程,2016,29(9):97-99. 被引量：24
4廖嘉灿,侯超钧.基于SSM和HttpClient的在线选课辅助系统的设计与实现[J].计算机与现代化,2016(10):116-120. 被引量：13
5李寒羽,陈晨.天津“8·12”爆炸事件中的舆论传播和政府应对[J].新闻研究导刊,2017,8(8):37-37.
6张章学.社交网络敏感数据获取方法研究[J].软件导刊,2018,17(3):56-58. 被引量：1
7李斌,吴庆涛.基于灰色理论的网络搜索频度数据分析[J].计算机与现代化,2018(9):98-104. 被引量：3
8杜翔,蔡燕,兰小机.基于Python的新浪微博位置数据获取方法研究[J].江西理工大学学报,2018,39(5):90-96. 被引量：2
9严斐,肖璞.Python框架下基于主题的数据爬取技术研究与实现[J].计算机时代,2018(11):10-13. 被引量：3
10申圣兵,姚方元.Android解析网页课表的算法设计与实现[J].电脑知识与技术,2016,12(4X):215-216.

1王超,闾陈莉,吴迪,项英杰.基于HttpClient的Android客户端的设计与实现[J].计算机时代,2014(3):30-32. 被引量：7
2李俊丽.基于Linux的python多线程爬虫程序设计[J].计算机与数字工程,2015,43(5):861-863. 被引量：19
3申圣兵.Android模拟教务系统登录的设计与实现[J].电脑编程技巧与维护,2017(2):38-39.
4孙青云,王俊峰,赵宗渠,高梦超.一种基于模拟登录的微博数据采集方案[J].计算机技术与发展,2014,24(3):6-10. 被引量：30
5徐雁飞,刘渊,吴文鹏.社交网络数据采集技术研究与应用[J].计算机科学,2017,44(1):277-282. 被引量：14
6田霏霏,沈记全.基于用户影响力的微博数据提取算法[J].计算机应用与软件,2017,34(1):55-61. 被引量：2
7李昕,刘路.基于视觉与RFID的机器人自定位抓取算法[J].计算机工程,2012,38(23):158-161. 被引量：6
8刘兵.基于JavaScript等多链接分析的主题爬虫设计实现[J].许昌学院学报,2010,29(2):87-90. 被引量：4
9刘艳平,俞海英,戎沁.Python模拟登录网站并抓取网页的方法[J].微型电脑应用,2015,31(2):58-60. 被引量：16
10祁峰.网络微博舆情系统技术分析[J].科学之友（下）,2013(6):145-146.

计算机工程

2014年第5期

浏览历史

内容加载中请稍等...

微博数据通用抓取算法被引量：5

参考文献3

二级参考文献39

共引文献184

同被引文献42

引证文献5

二级引证文献28

相关作者

相关机构

相关主题

浏览历史

微博数据通用抓取算法 被引量：5

参考文献3

二级参考文献39

共引文献184

同被引文献42

引证文献5

二级引证文献28

相关作者

相关机构

相关主题

浏览历史

微博数据通用抓取算法被引量：5