面向微博的PageRank算法的改进与应用被引量：3

IMPROVEMENT AND APPLICATION OF PAGERANK ALGORITHM FOR MICRO-BLOG

下载PDF

导出

摘要从海量数据下的社会化网络中识别出各个领域下产出高质量内容的具有一定影响力的专家,进行具有针对性的广告推荐与决策支持,已经成为微博数据挖掘亟待解决的问题之一。从微博的用户特征和行为特征出发,确定了采集博文的规则与互动量计算公式,并应用PageRank算法对微博用户影响力计算时存在的数据陈旧性和主题不相关性的问题进行了改进,最后分别基于MapReduce和Spark的并行计算框架对算法进行了实现。实验结果表明,该挖掘方法具有较好的准确性,在Spark并行计算框架下表现出较高的性能,尤其适合大规模数据集的场景。 It has been one of the urgent problems of micro-blog mining to identify experts with ability to produce high-quality content and high influence under various fields in social network with massive data, and make targeted advertising recommendation and decision support. In this paper, on the basis of user features and behavior features, the rules of selecting article in miero-blog and interaction calculation formula are determined, and the obsolescence of data and irrelevance of theme have been improved by PageRank algorithm. Finally, the algorithm is implemented respectively in the parallel computing framework of MapReduce and Spark. Experimental results show that the proposed method has high accuracy and great performance under Spark , especially under large-scale dataset scene.

作者原野李晨田丽华 Yuan Ye Li chen Tian Lihua(Software Engineering School, Xi＇ an Jiaotong University, Xi＇ an 710049, Shaanxi, China Sina Corporation, Beijing 100000, China)

机构地区西安交通大学软件学院新浪网技术(中国)有限公司

出处《计算机应用与软件》 2017年第3期31-37,共7页 Computer Applications and Software

基金国家自然科学基金项目(61403302)

关键词微博用户影响力 PAGERANK Spark大数据 Micro-blog User Influence PageRank Spark Big data

分类号 TP301.6 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献8

1吴根平.我国政府微博发展现状及对策[J].信息化建设,2011(10):23-27. 被引量：8
2吴少华,马晓娟,胡勇.基于改进PageRank算法的微博用户影响力评估[J].四川大学学报（自然科学版）,2015,52(5):1040-1044. 被引量：6
3欧卫,欧缤忆,谢赞福,肖政宏,彭平.一种基于PageRank的微博用户影响度评估算法[J].计算机与现代化,2013(12):34-37. 被引量：5
4杨尊琦,张倩楠.基于k-means算法的微博用户推荐功能研究[J].情报杂志,2013,32(8):142-144. 被引量：16
5原福永,冯静,符茜茜.微博用户的影响力指数模型[J].现代图书情报技术,2012(6):60-64. 被引量：72
6邢千里,刘列,刘奕群,张敏,马少平.微博中用户标签的研究[J].软件学报,2015,26(7):1626-1637. 被引量：34
7夏雨禾.微博互动的结构与机制——基于对新浪微博的实证研究[J].新闻与传播研究,2010,17(4):60-69. 被引量：174
8周奇峰.基于用户兴趣的PageRank算法改进策略[J].网络安全技术与应用,2014(6):52-53. 被引量：1

二级参考文献70

1张丹,何跃.基于聚类分析的SNS网络研究[J].情报杂志,2012,31(5):62-65. 被引量：3
2任平.走向交往实践的唯物主义[J].中国社会科学,1999(1):53-69. 被引量：93
3袁毅,徐曼.Page Rank判断网页质量的可靠性分析[J].情报杂志,2006,25(2):58-60. 被引量：3
4邝新华.《国产微博盛衰史》[J].新周刊,2010,(2).
5孟波.《新浪微博-一场正在发生的信息传播变革》[J].南方传媒研究,2010,(21).
6新浪CEO曹国伟透露,新浪微博用户已达5000万,http://www.enet.com.cn/artiele/2010/0304/A20100304616765.shtml,2010年3月4日.
7Erving Goffman, Forms of Talk, Philadelphia : University of Pennsylvania Press, 1981.
8Erring Goffman, Forms of Talk, Philadelphia : University of Pennsylvania Press, 1981.
9R.H. Turner, " Social Roles: Sociological Aspects. " International Encyclopedia of the Social Sciences, New York: Macmillan, 1968.
10Erving Goffman, Encounters: Two Studies in the Sociology of Interaction, Indianapolis : Bolobs - Merrill, 1961.

共引文献306

1贾冰.公共阐释对信息传播的适配性——以微博为例[J].中外文化与文论,2019,0(1):256-265.
2邵壮.公共卫生事件中明星型意见领袖表达行为及动因分析[J].新闻知识,2022(8):79-84. 被引量：1
3丁晟春,俞沣洋,李真.网络舆情潜在热点主题识别研究[J].数据分析与知识发现,2020,4(2):29-38. 被引量：4
4黄贤英,阳安志,刘小洋,刘广峰.融合兴趣的微博用户相似度计算研究[J].计算机应用研究,2020,37(1):66-70. 被引量：1
5徐雨,何红,江姗霖,徐冬.综艺节目微博营销效果评估模型研究——以B综艺为例[J].中国经贸导刊,2019(4Z):105-107. 被引量：3
6金晓春,金永成.微博的“广播”效应探析[J].新闻界,2011(2):36-37. 被引量：7
7剌啸媛.“微博问政”背后的伦理阐释[J].传承,2012(12):94-95. 被引量：1
8任明,杨守伟.网络论坛意见领袖的形成研究[J].宁夏大学学报（人文社会科学版）,2013,35(3):180-184. 被引量：1
9任福兵.政府微博影响力评价指标体系研究[J].中共郑州市委党校学报,2013(2):67-70. 被引量：2
10张雯谦,吕锋超,黎思杙.以微博为载体的高校精品文化活动建设研究——以陕西师范大学“博观”读书活动为例[J].东南传播,2013(7):26-28.

同被引文献39

1赵卓翔,王轶彤,田家堂,周泽学.社会网络中基于标签传播的社区发现新算法[J].计算机研究与发展,2011,48(S3):8-15. 被引量：37
2戴俊,朱晓民.基于ActiveMQ的异步消息总线的设计与实现[J].计算机系统应用,2010,19(8):254-257. 被引量：32
3刘磊,陈兴蜀,尹学渊,段意,吕昭.基于特征加权朴素贝叶斯分类算法的网络用户识别[J].计算机应用,2011,31(12):3268-3270. 被引量：8
4林友芳,王天宇,唐锐,周元炜,黄厚宽.一种有效的社会网络社区发现模型和算法[J].计算机研究与发展,2012,49(2):337-345. 被引量：51
5张东亮,董礼.基于改进的朴素贝叶斯算法在垃圾短信过滤中的研究[J].计算机测量与控制,2012,20(2):526-528. 被引量：7
6张俊丽,常艳丽,师文.标签传播算法理论及其应用研究综述[J].计算机应用研究,2013,30(1):21-25. 被引量：42
7宫秀文,张佩云.基于PageRank的社交网络影响最大化传播模型与算法研究[J].计算机科学,2013,40(06A):136-140. 被引量：13
8毛佳昕,刘奕群,张敏,马少平.基于用户行为的微博用户社会影响力分析[J].计算机学报,2014,37(4):791-800. 被引量：77
9张锡英,车鑫,田宪允.一种基于微博用户行为的僵尸粉识别方法[J].黑龙江大学自然科学学报,2014,31(2):250-254. 被引量：7
10李慧,王丽婷.基于话题标签的微博热点话题演化研究[J].情报科学,2019,37(1):30-36. 被引量：12

引证文献3

1叶小榕,邵晴.基于Spark的大规模社交网络社区发现原型系统[J].科技导报,2018,36(23):93-101. 被引量：8
2受志敏,张晓媛.微博用户影响力问题的国内研究述评[J].传播力研究,2019,0(12):93-93.
3唐明伟,高振伟,王彦婷,王镇,邓加钰,陈晓亮.基于监督随机游走的有影响力用户发现算法[J].西华大学学报（自然科学版）,2021,40(1):1-10.

二级引证文献8

1王涛,赵忠浩,任晴晴,白亮,李响.电力信息监测系统的设计[J].信息技术,2019,43(6):134-139. 被引量：2
2贺释千,张海涛,李密生,王玉清.基于Spark云计算技术的Linux实验教学研究[J].中国教育信息化,2019,25(12):89-91. 被引量：4
3马志宇,吴颖,夏川,刘飞,吴云志,乐毅,张友华.基于改进DRF算法的农业微服务负载均衡[J].江苏农业学报,2020,36(5):1298-1304. 被引量：7
4朱敏.基于朴素贝叶斯的社交网络入侵行为取证模型构建[J].廊坊师范学院学报（自然科学版）,2020,20(4):11-15.
5贺释千,张海涛,王宇宾,李可强.基于Docker的Spark云计算实验教学平台搭建与应用[J].河北科技师范学院学报,2020,34(4):64-68.
6李鹏,苏忻洁,白世贞.基于单值中智集的协同过滤推荐算法[J].计算机应用研究,2021,38(12):3667-3672. 被引量：4
7张妍,刘滨,梅卫,许云峰,谷利东,于彭帅,石钰,魏西峰.基于社区森林模型的分布式重叠社区发现算法[J].河北科技大学学报,2022,43(2):194-203.
8翟慧鹏,尚晓凯,韩龙龙,郭歆莹.基于大数据技术的网络安全分析研究[J].现代电子技术,2022,45(16):93-98. 被引量：10

1陈婷,卢建朱,江俊晖.一种具有强匿名性的无线传感器网络访问控制方案[J].计算机工程,2015,41(1):126-129. 被引量：3
2李小庆.基于Java Beans的Web数据库开发[J].中国金融电脑,2002(9):69-71.
3尚久庆,徐秋亮,蒋瀚.基于离散对数公钥的(t,n)环签名的分析[J].小型微型计算机系统,2006,27(5):802-804.
4胡国华,赵青杉.ID3算法的改进和优化[J].福建电脑,2010,26(7):12-13.
5鲁为,王枞.决策树算法的优化与比较[J].计算机工程,2007,33(16):189-190. 被引量：19
6仇颉,蔚承建.信息检索中博弈论方法的使用[J].煤炭技术,2010,29(12):156-158.
7高宁,高文胜,张瑞,严璋.结合主分量分析法的神经网络在变压器故障诊断中的应用[J].电工电能新技术,1999,18(2):44-48. 被引量：6
8熊玲,申兵,王金波.有限域小波变换的密码学性质简评[J].通信技术,2013(12):58-61. 被引量：1
9许亮.非线性特征提取和LSSVM在化工过程故障诊断中应用[J].计算机应用,2010,30(1):236-239. 被引量：2
10戴欢,吴小俊.基于统计不相关矢量集的独立成分分析[J].计算机工程,2009,35(23):184-186. 被引量：1

计算机应用与软件

2017年第3期

浏览历史

内容加载中请稍等...

面向微博的PageRank算法的改进与应用被引量：3

参考文献8

二级参考文献70

共引文献306

同被引文献39

引证文献3

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

面向微博的PageRank算法的改进与应用 被引量：3

参考文献8

二级参考文献70

共引文献306

同被引文献39

引证文献3

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

面向微博的PageRank算法的改进与应用被引量：3