基于社区极大类发现的大数据并行聚类算法被引量：6

Large data parallel clustering algorithm based on discovery of maximal class in the community

下载PDF

导出

摘要为了能在大数据中准确快速地寻找到网络结构,该文提出一种基于社区极大类的大数据聚类算法。对于初始节点不确定和适应度函数计算所带来的时间消耗,引入局部关键节点和对适应度公式进行改进来减少时间消耗。对于初始社区的形成,引入了极大团的概念并通过分析极大团的特性,得出社区的核心类别是由极大团构成,同时提出通过极大团的发现来得到局部核心类别的方法并提出了极大团发现算法的并行策略,然后提出整个算法的并行策略并在真实数据集上实验。实验结果证明该文提出的算法是可行和有效的,适用于大规模数据的网络结构发现。 In order to find the network structure in the big data accurately and quickly, a large data clustering algorithm based on community clustering is proposed here. The key local node and improved fitness function are introduced to reduce the time consumption caused by the initial node＇s uncertainty and the fitness function computing. For the formation of the initial community, this paper introduces the conception of the maximum clique. The conclusion that the core category of the community is made up of the maximum clique is drawn through analyzing its properties. This paper proposes the way of getting a local core class through finding the maximum clique. This paper proposes a parallel strategy of the maximum clique discovery algorithm and tests it in the real data sets. The experimental results show this algorithm is feasible and effective which can be applied to finding the network structure of large-scale data.

作者钱晓东曹阳

机构地区兰州交通大学自动化与电气工程学院

出处《南京理工大学学报》 EI CAS CSCD 北大核心 2016年第1期117-123,共7页 Journal of Nanjing University of Science and Technology

基金国家自然科学基金(71461017)

关键词大数据聚类复杂网络局部关键节点核心类别极大团适应度并行算法 big data clustering complex network local key nodes core category maximal group fitness function parallel computing

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献11

1Gantz J,Reinsel D.2011 Digital universe study:extracting value from chaos[M].USA:IDC Go-to-Market Services,2011.
2Bughin J,Chui M,Manyika J.Clouds,big data and smart assets:ten tech-enabled business trends to watch[J].McKinsey Quarterly,2010,8:1-14.
3王元卓,靳小龙,程学旗.网络大数据:现状与展望[J].计算机学报,2013,36(6):1125-1138. 被引量：714
4Guha S,Rastogi R,Shim K.Cure:an efficient clustering algorithm for large databases[J].Information System Journal,1998,26(1):35～58.
5Kantabutra S,Couch A L.Parallel k-means clustering algorithm on nows[J].Nectec Technical Journal,2000,1(6):243-247.
6Clauset A.Finding local community structure in networks[J].Physics Review E,2005,72:1-6.
7Lancichinetti A,Fortunato S,Kertesz J.Detection of the overlapping and hierarchical community structure in complex networks[J].New Journal of Physics,2009,11:1-18.
8Nicosia V,Mangioni G,Carchiolo V,et al.Extending the definition of modularity to directed graphs with overlapping communities[J].Journal of Statistical Mechanics:Theory and Experiment,2009,3:03024.
9Bonacich P.Factoring and weighting approaches to status scores and clique identification[J].J Math Sociol,1972,2:113-120.
10张琨,沈海波,张宏,蒋黎明,衷宜.基于灰色关联分析的复杂网络节点重要性综合评价方法[J].南京理工大学学报,2012,36(4):579-586. 被引量：26

二级参考文献87

1张尧庭,方开泰.多元统计分析引论[M].北京:科学出版社,1999.
2Vespignani A. Complex networks : The fragility of inter- dependency[ J]. Nature,2010,464:984-985.
3王林,戴冠中.复杂网络的Scale.free性、Scale-free现象及其控制[M].北京:科学出版社,2009.
4Lai Y C, Motter A E, Nishikawa T. Attacks and cascades in complex networks [ J ]. Lecture Notes in Physics, 2004,650 : 299- 310.
5Landherr A, Friedl B, Heidemann J. A critical review of centrality measures in social networks [ J ]. Business & Information Systems Engineering ,2010,2 ( 6 ) :371-385.
6Kermarrec A, Merrer E L, Sericola B, et al. Second order centrality: distributed assessment of nodes criticity in complex networks [ J ]. Computer Communications,2011, 34(5) :619-628.
7Hu J, Wang B, Lee D Y. Evaluating node importance with multi-criteria [ A ]. IEEE/ACM International Conferences on Cyber, Physical and Social Computing [ C ]. Hangzhou, China :IEEE,2010:792-797.
8Holme P, Kim B J, Chang N Y, et al. Attack vulnerability of complex networks [ J ]. Physical Review E,2002,65 (5) : e056109.
9Linyuan Lti, Tao Zhou. Role of weak ties in link prediction of complex networks [ A ]. Proceeding of the 1 st ACM International Workshop on Complex Networks Meet Information & Knowledge Management [ C ]. Hong Kong, China : ACM ,2009:55-58.
10Buldyrev S V, Parshani R, Paul G, et al. Catastrophic cascade of failures in interdependent networks [ J ]. Nature, 2010,464 : 1025 - 1028.

共引文献740

1张丛铄.基于大数据的研究生心理危机预警机制的构建[J].中国新通信,2020,0(2):80-81. 被引量：2
2王兴隆,张淑婷.基于效率度的航空网络影响力节点识别[J].武汉理工大学学报,2018,40(8):48-54.
3吴嘉琪.一种基于ELK框架的地理信息动态时空数据获取与挖掘方法[J].测绘通报,2020(1):45-49. 被引量：2
4谢月锋,董现垒,陈卉,王燕,刘志成.利用网络痕迹信息即时预测儿童腹泻流行趋势[J].医学信息（医学与计算机应用）,2016,29(29):1-4.
5杜立智,张晓龙.一个高效的3SAT到Hamilton环转化方法[J].南京理工大学学报,2013,37(4):506-510. 被引量：1
6韩益亮,卢万谊,武光明,杨晓元.适用于网络大数据的属性基广义签密方案[J].计算机研究与发展,2013,50(S2):23-29. 被引量：2
7邓波,张玉超,金松昌,林旺群.基于MapReduce并行架构的大数据社会网络社团挖掘方法[J].计算机研究与发展,2013,50(S2):187-195. 被引量：10
8梁俊杰,熊亚军.以固态硬盘为缓存的存储技术研究[J].微电子学与计算机,2015,32(1):40-44. 被引量：2
9嵇梅.中国保健食品,明天还有“戏”吗?[J].新疆人大,2000(4):35-37.
10刘琼.大数据环境下图书馆面临的影响与挑战[J].理论观察,2013(8):112-113. 被引量：29

同被引文献34

1胡清华,于达仁,谢宗霞.基于邻域粒化和粗糙逼近的数值属性约简[J].软件学报,2008,19(3):640-649. 被引量：291
2黄颖,李芳芳.基于粗集理论的物流供应商选择研究[J].江苏科技大学学报（自然科学版）,2008,22(6):67-71. 被引量：4
3张葛祥,潘林强.自然计算的新分支——膜计算[J].计算机学报,2010,33(2):208-214. 被引量：69
4王熙照,王婷婷,翟俊海.基于样例选取的属性约简算法[J].计算机研究与发展,2012,49(11):2305-2310. 被引量：28
5刘树仁,宋亚奇,朱永利,王德文.基于Hadoop的智能电网状态监测数据存储研究[J].计算机科学,2013,40(1):81-84. 被引量：51
6杨春,殷绪成,郝红卫,闫琰,王志彬.基于差异性的分类器集成:有效性分析及优化集成[J].自动化学报,2014,40(4):660-674. 被引量：19
7刘艳芳,叶东毅.基于邻域保持学习的无监督特征选择算法[J].模式识别与人工智能,2018,31(12):1096-1102. 被引量：8
8崔建华.大数据环境下云存储数据安全探析[J].信息安全与技术,2015,6(5):31-33. 被引量：7
9刘芝怡,陈功.基于改进K-means算法的RFAT客户细分研究[J].南京理工大学学报,2014,38(4):531-536. 被引量：17
10李权,赵勋杰,彭青艳,邹薇,张雪松.基于主成分分析法的窗口自适应粒子滤波算法[J].红外与激光工程,2014,43(10):3474-3479. 被引量：5

引证文献6

1屈洁.虚拟环境下大数据智能并行聚类方法研究[J].计算机测量与控制,2017,25(6):257-260. 被引量：4
2刘先花.基于群体协同智能聚类的大数据存储系统设计[J].现代电子技术,2017,40(23):130-133. 被引量：7
3李京政,杨习贝,王平心,陈向坚.模糊粗糙集的稳定约简方法[J].南京理工大学学报,2018,42(1):68-75. 被引量：11
4李立,江克勤.最小串行策略下脉冲神经膜系统的语言产生能力[J].南京理工大学学报,2018,42(5):597-603. 被引量：1
5葛苏慧,万泉,白成杰.基于Hadoop的高校学生行为预警决策系统研究[J].计算机应用与软件,2021,38(1):6-12. 被引量：14
6彭明,张继炎,王慧玲,黄宏昆,刘艳芳.基于自适应邻域和自表示正则的无监督特征选择算法[J].南京理工大学学报,2021,45(4):439-446.

二级引证文献37

1胡东明,刘旭敏,徐维祥.MapReduce框架下一种负载均衡的Top-k连接查询算法[J].计算机测量与控制,2018,26(8):238-242. 被引量：1
2杨雁莹.大数据背景下的聚类算法的相关研究[J].电脑编程技巧与维护,2019(1):68-71. 被引量：1
3夏秀云,常安成,刘一龙,田浩.关于模糊粗糙集的广义扩张原理的注记[J].舰船电子工程,2019,39(2):99-102.
4张丽萍.基于群体协同智能聚类的期刊分类大数据自动存储方法[J].北京科技大学学报（社会科学版）,2019,35(2):67-72. 被引量：7
5刘云恒.云环境下基于群智能算法的大数据聚类挖掘技术[J].现代电子技术,2019,42(9):65-67. 被引量：9
6徐晓霞,姜春茂,黄春梅.一种基于三支决策的移动云任务节能卸载方法[J].南京理工大学学报,2019,43(4):447-454. 被引量：18
7宋鹏.基于大数据挖掘的多维数据去重聚类算法分析[J].现代电子技术,2019,42(23):150-153. 被引量：11
8吴昊,翟永健.国防视角下城市公共交通综合评价体系[J].兵器装备工程学报,2019,40(12):142-145.
9李晓菡,胡启洲,周浩.铁路旅客运输服务质量评价的属性约简模型[J].南京理工大学学报,2019,43(6):744-751. 被引量：3
10邬阳阳,郭文强,汤建国,任艳.几类拓展粗糙集模型属性约简研究综述[J].宜宾学院学报,2019,19(12):29-38. 被引量：3

1曹阳,钱晓东.基于局部关键节点的大数据聚类算法[J].计算机工程与科学,2016,38(7):1338-1343. 被引量：5
2谢坤武.半结构化数据的结构发现聚类算法[J].湖北民族学院学报（自然科学版）,2009,27(3):311-315.
3曲文龙,杨炳儒,张克君.基于广义后缀树的事件序列频繁情节挖掘算法[J].北京科技大学学报,2006,28(5):490-496. 被引量：1
4关冕,马军.针对Web论坛的一种结构化数据自动抽取方法[J].山东大学学报（理学版）,2010,45(5):42-47. 被引量：1
5韩忠明,杨珂,谭旭升.利用加权用户关系图的谱分析探测大规模电子商务水军团体[J].计算机学报,2017,40(4):939-954. 被引量：12
6柴变芳,贾彩燕,于剑.基于概率模型的大规模网络结构发现方法[J].软件学报,2014,25(12):2753-2766. 被引量：8
7贺成龙,朱宇航,马宏,康世泽.基于种子节点集的社区层次结构发现算法[J].信息工程大学学报,2016,17(3):340-345.
8纪开祝,许冲,陈宝兴.复杂网络重叠社区结构发现的演化算法研究[J].计算机工程与科学,2016,38(10):2077-2082. 被引量：2
9王志伟.旅客群体中的家庭结构发现[J].现代计算机（中旬刊）,2015(5):40-44.
10毛毛虫.Excel2007的模板设计并不难[J].软件指南,2008(7):34-34.

南京理工大学学报

2016年第1期

浏览历史

内容加载中请稍等...

基于社区极大类发现的大数据并行聚类算法被引量：6

参考文献11

二级参考文献87

共引文献740

同被引文献34

引证文献6

二级引证文献37

相关作者

相关机构

相关主题

浏览历史

基于社区极大类发现的大数据并行聚类算法 被引量：6

参考文献11

二级参考文献87

共引文献740

同被引文献34

引证文献6

二级引证文献37

相关作者

相关机构

相关主题

浏览历史

基于社区极大类发现的大数据并行聚类算法被引量：6