期刊文献+

基于Python的新浪微博数据爬虫程序设计 被引量:24

下载PDF
导出
摘要 为了快速地获取到海量微博中的数据,根据微博网页的特点,提出了一种基于Python爬虫程序设计方法。通过模拟登录新浪微博,实时抓取微博中指定用户的微博正文等内容;该工具利用关键词匹配技术,匹配符合规定条件的微博,并抓取相关内容;最后使用该工具对部分微博数据作了一个关于雾霾问题的分析。实验结果表明:本程序具有针对性强、数据采集速度快、易嵌入开发、简单等优点,为不善于编程的研究者提供了快速获取微博的方法,有利于对微博的后续数据挖掘研究。
作者 陈琳 任芳
出处 《信息系统工程》 2016年第9期97-99,共3页
  • 相关文献

参考文献10

二级参考文献67

  • 1欧健文,董守斌,蔡斌.模板化网页主题信息的提取方法[J].清华大学学报(自然科学版),2005,45(S1):1743-1747. 被引量:70
  • 2周立柱,林玲.聚焦爬虫技术研究综述[J].计算机应用,2005,25(9):1965-1969. 被引量:155
  • 3孟涛,王继民,闫宏飞.网页变化与增量搜集技术[J].软件学报,2006,17(5):1051-1067. 被引量:22
  • 4刘慕涛,张磊,王艳,周晓中,张红雷,左芸.基于XML的API自动化测试工具设计与实现[J].计算机工程,2007,33(13):96-98. 被引量:13
  • 5Pieter N, Michiel H. Mining Twitter in the cloud: A case study [C]// Proceedings of the 2010 IEEE 3rd International Conference on Cloud Computing, CLOUD 2010. Miami, USA: IEEE Computer Society, 2010: 107 -114.
  • 6Abraham R, Martinez T. Twitter: Network properties analysis [C]// Proceedings of the CONIELECOMP 2010 20th International Conference on Electronics Communications and Computers. Cholula Puebla, Mexico: IEEE Computer Society, 2010: 180 - 184.
  • 7wenE,SunV.新浪微博研究报告[Z/OL].(2011-05-20),http://www.techweb.com.cn/data/2011-02-25/916941.shtml.
  • 8HAN Ruixia. The influence of microblogging on personal public participation [C]// Proceedings of the 2010 IEEE 2nd Symposium on Web Society, SWS 2010. Beijing, China: Association for Computing Machinery, 2010:615 -618.
  • 9KANG Shulong, ZHANG Chuang. Complexity research of massively microhlogging based on human behaviors [C]//2010 2nd International Workshop on Database Technology and Applications, DBTA2010 Proceedings. Wuhan, China: IEEE Computer Society, 2010: 1 -4.
  • 10WANG Rui, JIN Yongsheng. An empirical study on the relationship between the followers' number and influence of microblogging [C]// Proceedings of the International Conference on E-Business and E-Government, ICEE 2010. Guangzhou, China: IEEE Computer Society, 2010: 2014- 2017.

共引文献306

同被引文献148

引证文献24

二级引证文献145

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部