分布式多数据流频繁伴随模式挖掘被引量：11

Distributed Mining of Frequent Co-occurrence Patterns across Multiple Data Streams

下载PDF

导出

摘要多数据流频繁伴随模式是指一组对象较短时间内在同一个数据流上伴随出现,并在之后一段时间以同样方式出现在其他多个数据流上.现实生活中,城市交通监控系统中的伴随车辆发现、基于签到数据的伴随人群发现、基于社交网络数据中的高频伴随词组发现热点事件等应用都可以归结为多数据流频繁伴随模式发现问题.由于数据流规模巨大且到达速度快,基于单机的集中式挖掘算法受到硬件资源的限制难以及时发现海量数据流中出现的频繁伴随模式.为此,提出面向大规模数据流频繁伴随模式发现的分布式挖掘算法.该算法首先将每个数据流划分成若干个segment片段,然后构建适合部署在分布式计算平台上的多层挖掘模型,并利用多计算节点以并行方式对大规模数据流进行处理,从而实时发现频繁伴随模式.最后,在真实数据集上进行充分实验以验证算法性能. A frequent co-occurrence pattern across multiple data streams refers to a set of objects occurring in one data stream within a short time span and this set of objects appear in multiple data streams in the same fashion within another user-specified time span. Some real applications, such as discovering groups of cars that travel together using the city surveillance system, finding the people that are hanging out together based on their check-in data, and mining the hot topics by discovering groups of frequent co-occurrence keywords from social network data, can be abstracted as this problem. Due to data streams always own tremendous volumes and high arrival rates, the existing algorithms being designed for a centralized setting cannot handle mining frequent co-occurrence patterns from the large scale of streaming data with the limited computing resources. To address this problem, FCP-DM, a distributed algorithm to mine frequent co-occurrence patterns from a large number of data streams, is proposed. This algorithm first divides the data streams into segments, and then constructs a multilevel mining model in the distributed environment. This model utilizes multiple computing nodes for detecting massive volumes of data streams in a parallel pattern to discover frequent co-occurrence patterns in real-time. Finally, extensive experiments are conducted to fully evaluate the performance of the proposal.

作者于自强禹晓辉董吉文王琳 YU Zi-Qiang;YU Xiao-Hui;DONG Ji-Wen;WANG Lin(School of Information Science and Engineering, University of Ji’nan, Ji’nan 250022, China;School of Computer Science and Technology, Shandong University, Ji’nan 250101, China)

机构地区济南大学信息科学与工程学院山东大学计算机科学与技术学院

出处《软件学报》 EI CSCD 北大核心 2019年第4期1078-1093,共16页 Journal of Software

基金国家自然科学基金(61702217 61771230 61772231 61873324) 山东省重点研发计划(2017GGX10144 2018GGX101048 2017CXGC0701 2016ZDJS01A12) 山东省自然科学基金(ZR2017MF025) 济南大学科技发展计划(XKY1737 XKY1734)~~

关键词多数据流频繁伴随模式分布式挖掘算法 multiple data stream frequent co-occurrence pattern distributed mining algorithm

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献1

1李海峰,章宁,朱建明,曹怀虎.时间敏感数据流上的频繁项集挖掘算法[J].计算机学报,2012,35(11):2283-2293. 被引量：29

二级参考文献21

1Agrawal R, Imielinski T, Swami A N. Mining association rules between sets of items in large databases//Proceedings of the ACM SIGMOD the International Conference on Man agement of Data. Vienna, Austria, 1993:297-216.
2Agrawal R, Srikant R. Fast algorithms for mining associa tion rules//Proceedings of the VLDB the Very Large Data bases. Santiago, Chile, 1994:487-499.
3Agrawal R, Srikant R. Mining sequential patterns//Proceed ings of the ICDE the International Conference on Data Engi neering. Taipei, China, 1995:3-14.
4Xiong H, Tan P-N, Kumar V. Hyperclique pattern discovery. DMKD the Data Mining and Knowledge Discovery, 2006, 13(2): 219-242.
5Chang J H, Lee W S. Finding recent frequent itemsets adap- tively over online data streams//Proceedings of the Interna tional Conference on Knowledge Discovery and Data Mining. Washington, DC, USA, 2003:487-492.
6Li H, Lee S, Shan M. An efficient algorithm for mining fre quent itemsets over the entire history of data streams//Proceedings of the International Workshop Frequent Itemset Mining Implementations. Seattle, WA, USA, 2004:20-24.
7Giannella C, Han J, Pei J, Yah X, Yu P S. Mining frequent patterns in data streams at multiple time granularities// Kargupta H, Joshi A, Sivakumar K, Yesha Y eds. Next Generation Data Mining. AAAI/MIT, 2003:191-210.
8Chang J H, Lee W S. estWin: Adpatively monitoring the re- cent change of frequent itemsets over online data streams// Proceedings of the Conference on Information and Knowledge Management. New Orleans, Louisiana, USA, 2003:536-539.
9Jin R, Agrawa O. An algorithm for in-core frequent itemset mining on streaming data//Proceedings of the IEEE Interna- tional Conference on Data Mining. Houston, Texas, USA, 2005, 210-217.
10Mozafari B, Thakkar H, Zaniolo C. Verifying and mining frequent patterns from large windows over data streams// Proceedings of the International Conference on Data Engi neering. Cancun, Mexico, 2008:179-188.

共引文献28

1杨欢,张玉清,胡予濮,刘奇旭.基于权限频繁模式挖掘算法的Android恶意应用检测方法[J].通信学报,2013,34(S1):106-115. 被引量：47
2王红梅,胡明.基于散列的频繁项集分组算法[J].计算机应用,2013,33(11):3045-3048. 被引量：1
3杨欢,张玉清,胡予濮,刘奇旭.基于多类特征的Android应用恶意行为检测系统[J].计算机学报,2014,37(1):15-27. 被引量：89
4付达杰,戴红红.一种基于正态分布的数据流挖掘决策树算法[J].计算机应用与软件,2014,31(8):285-287.
5张贤骥,王伦文.基于构造型神经网络的异常模式发现方法[J].计算机科学,2014,41(7):297-300. 被引量：4
6宋威,刘明渊,李晋宏.基于事务型滑动窗口的数据流中高效用项集挖掘算法[J].南京大学学报（自然科学版）,2014,50(4):494-504. 被引量：4
7陈凤娟.面向数据流的频繁项集挖掘[J].洛阳师范学院学报,2015,34(2):82-85. 被引量：1
8韩萌,王志海,原继东.一种基于时间衰减模型的数据流闭合模式挖掘方法[J].计算机学报,2015,38(7):1473-1483. 被引量：16
9王乐,熊松泉,常艳芬,王水.基于模式增长方式的高效用模式挖掘算法[J].自动化学报,2015,41(9):1616-1626. 被引量：10
10韩萌,王志海,原继东.基于高斯函数的衰减因子设置方法研究[J].计算机研究与发展,2015,52(12):2834-2843. 被引量：4

同被引文献115

1冯斌,张又文,唐昕,郭创新,王坚俊,杨强,王慧芳.基于BiLSTM-Attention神经网络的电力设备缺陷文本挖掘[J].中国电机工程学报,2020,40(S01):1-10. 被引量：54
2朱燕,衷璐洁.基于LLVM中间表示的数据依赖并行计算方法[J].计算机应用研究,2020,37(2):437-442. 被引量：1
3肖勇,郑楷洪,余忠忠,周密,李森,马千里.基于三次指数平滑模型与DBSCAN聚类的电量数据异常检测[J].电网技术,2020,44(3):1099-1104. 被引量：61
4陈振宇,刘金波,李晨,季晓慧,李大鹏,黄运豪,狄方春,高兴宇,徐立中.基于LSTM与XGBoost组合模型的超短期电力负荷预测[J].电网技术,2020,44(2):614-620. 被引量：225
5胡苏晓.集体无意识——原型——神话母题——容格的分析心理学与神话原型批评[J].文学评论,1989(1):133-140. 被引量：19
6李盛恩,王珊.封闭数据立方体技术研究[J].软件学报,2004,15(8):1165-1171. 被引量：25
7向隆刚,龚健雅.一种高度浓缩和语义保持的数据立方[J].计算机研究与发展,2007,44(5):837-844. 被引量：5
8陶顺,肖湘宁.中性点不同接地方式下的电压暂降类型及其在变压器间的传递(二)[J].电工技术学报,2007,22(10):156-159. 被引量：37
9黄学平,薛安荣.基于数据库划分的关联规则算法[J].计算机工程与设计,2008,29(12):3005-3007. 被引量：5
10师智斌,黄厚宽.基于形式概念分析的约简数据立方体研究[J].计算机研究与发展,2009,46(11):1956-1962. 被引量：6

引证文献11

1潘燕.基于改进决策树的网络敏感数据流动态挖掘算法设计[J].宁夏师范学院学报,2020,41(10):53-60. 被引量：3
2薛岩.克苏鲁式数据结构模型理论[J].科技创新与应用,2021,11(15):23-25.
3路晶,胡顺仿.基于粒度理论的高维数据流并行计算方法[J].计算机仿真,2021,38(5):246-249.
4贾颉辉,齐林海,王红.基于数据驱动和流式计算的电压暂降传播特性研究[J].电力信息与通信技术,2021,19(6):22-31. 被引量：4
5周翔.基于粒度计算的数据流最大频繁项集更新方法[J].贵阳学院学报（自然科学版）,2021,16(2):1-5.
6董雅茹,刘倩.面向时空大数据的伴随关系分析系统[J].信息技术与信息化,2021(11):117-120. 被引量：1
7徐成桂,徐广顺.云端大数据流序列异常挖掘数学建模仿真[J].计算机仿真,2022,39(8):514-518.
8孔明,魏东,冉义兵,毕国鹏.基于Fork/Join的事务日志伴随模式挖掘方法[J].小型微型计算机系统,2023,44(2):239-247.
9徐静文,游进国,王全鹍,黄星瑞,贾连印.数据立方体与频繁项集的统一计算框架研究[J].计算机学报,2023,46(4):780-802.
10丁家满,李海滨,邓斌,贾连印,游进国.一种基于Spark的频繁项集快速挖掘算法[J].软件学报,2023,34(5):2446-2464. 被引量：1

二级引证文献9

1邹子豪,邓辉.智能变电站三层两网结构下二次系统运检关键点分析[J].湖北电力,2021,45(4):47-51. 被引量：9
2徐李阳,李慧芹,赵文华,谢瑞楠,王蕾.基于卷积神经网络的敏感数据自动脱敏方法[J].自动化应用,2021(10):86-88. 被引量：1
3何英杰,支文浩,张义坤,邱继浪,焦乾明,刘进军.典型敏感设备电压暂降耐受能力自动测试系统研究[J].电网技术,2022,46(5):1956-1964. 被引量：12
4何红,张辉.轻量级海量时空数据处理分析服务框架[J].指挥信息系统与技术,2022,13(5):88-92. 被引量：1
5祁永胜.基于最小暂降幅值搜索的电压监测点优化配置研究[J].自动化与仪器仪表,2023(2):37-41.
6戴美玲.基于改进模糊聚类的网络敏感数据流动态挖掘研究[J].保山学院学报,2023,42(2):44-51. 被引量：1
7何觅,杨发宇,苟源芳,蒋羽鹏.基于随机森林算法的电压暂降特征量预测研究[J].电工技术,2023(20):82-85. 被引量：1
8陈予雯.基于加权深度森林算法的公安敏感数据流动态挖掘研究[J].中国人民警察大学学报,2024,40(6):23-28.
9李华锋.基于Apriori算法的新业态分析系统构建与研究[J].自动化与仪器仪表,2024(9):325-329.

1李洪乾.面向电力大数据的多数据流实时处理技术研究[J].计算机产品与流通,2018,7(10):63-63. 被引量：1
2李守勇.浅谈高中语文教学中如何培养学生的语文思维[J].中学生作文指导,2018,0(14):82-82.
3张守奎.马克思财产权批判理论的生成逻辑及当代意义[J].长白学刊,2019(1):75-82. 被引量：1
4李淑敏,夏茂辉,赵志伟.基于spark的协同过滤推荐算法的改进[J].软件,2019,40(2):173-178. 被引量：1
5张元元.单片机与PC机并行数据传输分析[J].现代制造技术与装备,2019,55(2):92-93. 被引量：2
6翁利国,陈杰,汪宇杰,吴亦灵.基于Spark平台的资源调度策略研究现状[J].电脑知识与技术,2019,15(1):14-16. 被引量：4
7彭正生.人格象征与精神分析的小说范本——鲁敏《奔月》论[J].小说评论,2019,0(2):101-107.
8代言明,晏丽霞,方志洋,王蒙阳.公路工程项目管理的信息模型优化法[J].公路交通科技（应用技术版）,2019,15(1):305-307.
9童艳,周欣明.一种实时测控集群数据处理进程软件控制方法[J].遥测遥控,2019,40(1):67-71. 被引量：1
10李璇,杨霁帆.美国、香港房地产企业发展模式分析及启示[J].住宅与房地产,2019,0(8):73-79. 被引量：1

软件学报

2019年第4期

浏览历史

内容加载中请稍等...

分布式多数据流频繁伴随模式挖掘被引量：11

参考文献1

二级参考文献21

共引文献28

同被引文献115

引证文献11

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

分布式多数据流频繁伴随模式挖掘 被引量：11

参考文献1

二级参考文献21

共引文献28

同被引文献115

引证文献11

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

分布式多数据流频繁伴随模式挖掘被引量：11