时间敏感数据流上的频繁项集挖掘算法被引量：29

Frequent Itemset Mining over Time-Sensitive Streams

下载PDF

导出

摘要数据流中的数据分布随着时间动态变化,但传统基于事务的滑动窗口模型难以体现该特征,因此挖掘结果并不精确.首先提出时间敏感数据流处理中存在的问题,然后建立基于时间戳的滑动窗口模型,并转换为基于事务的可变滑动窗口进行处理,提出了频繁项集的挖掘算法FIMoTS.该算法引入了类型变化界限的概念,将项集进行动态分类,根据滑动窗口大小的变化对项集进行延迟处理,仅当项集的类型变化界限超出一定阈值的时候才进行支持度的重新计算,能够达到剪枝的目的.在4种不同密度的数据集上完成的实验结果显示,该算法能够在保证内存开销基本不变的情况下显著提高计算效率. Stream data arrives dynamically when stream continues, which cannot be reflected by the traditional transaction-based sliding window, thus the results are not accurate. This paper focuses on this problem and builds a timestamp-based sliding window model, which is afterwards converted into a transaction-based variable sliding window; based on this model, a frequent item- set mining algorithm named FIMoTS is proposed. In this algorithm, we introduce the type trans- forming bound to dynamically classify the itemsets into categories; as a result, these itemsets can be deferred processed with regard to the window size, that is, an itemset will not be processed unless its type transforming bounds reach to a threshold. Consequently, the computational pruning can be conducted. The experimental results over four different datasets show that our algorithm significantly outperform the Naive method.

作者李海峰章宁朱建明曹怀虎

机构地区中央财经大学信息学院

出处《计算机学报》 EI CSCD 北大核心 2012年第11期2283-2293,共11页 Chinese Journal of Computers

基金国家自然科学基金(61100112) 教育部人文社会科学研究青年基金(11YJCZH006) 北京市自然科学基金(9092014 4112053) 中央财经大学科研创新团队支持计划资助~~

关键词频繁项集数据流时间敏感滑动窗口数据挖掘 frequent itemsets data stream timesensitive sliding window data mining

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献21

1Agrawal R, Imielinski T, Swami A N. Mining association rules between sets of items in large databases//Proceedings of the ACM SIGMOD the International Conference on Man agement of Data. Vienna, Austria, 1993:297-216.
2Agrawal R, Srikant R. Fast algorithms for mining associa tion rules//Proceedings of the VLDB the Very Large Data bases. Santiago, Chile, 1994:487-499.
3Agrawal R, Srikant R. Mining sequential patterns//Proceed ings of the ICDE the International Conference on Data Engi neering. Taipei, China, 1995:3-14.
4Xiong H, Tan P-N, Kumar V. Hyperclique pattern discovery. DMKD the Data Mining and Knowledge Discovery, 2006, 13(2): 219-242.
5Chang J H, Lee W S. Finding recent frequent itemsets adap- tively over online data streams//Proceedings of the Interna tional Conference on Knowledge Discovery and Data Mining. Washington, DC, USA, 2003:487-492.
6Li H, Lee S, Shan M. An efficient algorithm for mining fre quent itemsets over the entire history of data streams//Proceedings of the International Workshop Frequent Itemset Mining Implementations. Seattle, WA, USA, 2004:20-24.
7Giannella C, Han J, Pei J, Yah X, Yu P S. Mining frequent patterns in data streams at multiple time granularities// Kargupta H, Joshi A, Sivakumar K, Yesha Y eds. Next Generation Data Mining. AAAI/MIT, 2003:191-210.
8Chang J H, Lee W S. estWin: Adpatively monitoring the re- cent change of frequent itemsets over online data streams// Proceedings of the Conference on Information and Knowledge Management. New Orleans, Louisiana, USA, 2003:536-539.
9Jin R, Agrawa O. An algorithm for in-core frequent itemset mining on streaming data//Proceedings of the IEEE Interna- tional Conference on Data Mining. Houston, Texas, USA, 2005, 210-217.
10Mozafari B, Thakkar H, Zaniolo C. Verifying and mining frequent patterns from large windows over data streams// Proceedings of the International Conference on Data Engi neering. Cancun, Mexico, 2008:179-188.

同被引文献285

1陈爱东,刘国华,费凡,周宇,万小妹,貟慧.满足均匀分布的不确定数据关联规则挖掘算法[J].计算机研究与发展,2013,50(S1):186-195. 被引量：18
2杨欢,张玉清,胡予濮,刘奇旭.基于权限频繁模式挖掘算法的Android恶意应用检测方法[J].通信学报,2013,34(S1):106-115. 被引量：47
3王鹏,吴晓晨,王晨,汪卫,施伯乐.CAPE——数据流上的基于频繁模式的分类算法[J].计算机研究与发展,2004,41(10):1677-1683. 被引量：7
4颜跃进,李舟军,陈火旺.基于FP-Tree有效挖掘最大频繁项集[J].软件学报,2005,16(2):215-222. 被引量：68
5宋余庆,朱玉全,孙志挥,杨鹤标.一种基于频繁模式树的约束最大频繁项目集挖掘及其更新算法[J].计算机研究与发展,2005,42(5):777-783. 被引量：21
6马瑞民,王小龙.NBCC:一种数据流上变化的挖掘算法[J].计算机工程与应用,2006,42(7):166-168. 被引量：1
7潘云鹤,王金龙,徐从富.数据流频繁模式挖掘研究进展[J].自动化学报,2006,32(4):594-602. 被引量：34
8马建庆,钟亦平,张世永.基于兴趣度的关联规则挖掘算法[J].计算机工程,2006,32(17):121-122. 被引量：20
9刘学军,徐宏炳,董逸生,钱江波,王永利.基于滑动窗口的数据流闭合频繁模式的挖掘[J].计算机研究与发展,2006,43(10):1738-1743. 被引量：26
10王伟平,李建中,张冬冬,郭龙江.一种有效的挖掘数据流近似频繁项算法[J].软件学报,2007,18(4):884-892. 被引量：33

引证文献29

1杨欢,张玉清,胡予濮,刘奇旭.基于权限频繁模式挖掘算法的Android恶意应用检测方法[J].通信学报,2013,34(S1):106-115. 被引量：47
2王红梅,胡明.基于散列的频繁项集分组算法[J].计算机应用,2013,33(11):3045-3048. 被引量：1
3杨欢,张玉清,胡予濮,刘奇旭.基于多类特征的Android应用恶意行为检测系统[J].计算机学报,2014,37(1):15-27. 被引量：89
4付达杰,戴红红.一种基于正态分布的数据流挖掘决策树算法[J].计算机应用与软件,2014,31(8):285-287.
5张贤骥,王伦文.基于构造型神经网络的异常模式发现方法[J].计算机科学,2014,41(7):297-300. 被引量：4
6宋威,刘明渊,李晋宏.基于事务型滑动窗口的数据流中高效用项集挖掘算法[J].南京大学学报（自然科学版）,2014,50(4):494-504. 被引量：4
7陈凤娟.面向数据流的频繁项集挖掘[J].洛阳师范学院学报,2015,34(2):82-85. 被引量：1
8韩萌,王志海,原继东.一种基于时间衰减模型的数据流闭合模式挖掘方法[J].计算机学报,2015,38(7):1473-1483. 被引量：16
9王乐,熊松泉,常艳芬,王水.基于模式增长方式的高效用模式挖掘算法[J].自动化学报,2015,41(9):1616-1626. 被引量：10
10韩萌,王志海,原继东.基于高斯函数的衰减因子设置方法研究[J].计算机研究与发展,2015,52(12):2834-2843. 被引量：4

二级引证文献379

1张子伟,郭齐胜,董志明,陈冉,李林.基于关联规则挖掘的体系作战效能分析[J].装甲兵学报,2022(2):43-49. 被引量：1
2李强,吴裕雄,古国照,陈锡林,陈晔.智能辅助诊疗平台设计与探索[J].医学信息学杂志,2019,40(11):32-35. 被引量：3
3王永贵,谢南,曲海成.基于存储改进的分区并行关联规则挖掘算法[J].计算机应用研究,2020,37(1):167-171. 被引量：6
4刘晓建,雷倩,杜茜,刘柯宏.多上下文特征的Android恶意程序静态检测方法[J].华中科技大学学报（自然科学版）,2020,48(2):85-90. 被引量：7
5陈泽恩.联合选择特征和分类器参数的Android系统安全检测[J].微电子学与计算机,2015,32(2):119-123.
6张玉清,王凯,杨欢,方喆君,王志强,曹琛.Android安全综述[J].计算机研究与发展,2014,51(7):1385-1396. 被引量：94
7王宏志,梁志宇,李建中,高宏.工业大数据分析综述:模型与算法[J].大数据,2018,4(5):62-79. 被引量：20
8齐娇娇.基于改进Apriori算法的运动员多属性训练数据挖掘模型构建及仿真[J].微型电脑应用,2018,34(12):137-139. 被引量：5
9杨清,李元歌.基于改进AHP-模糊算法的Android系统安全威胁评估[J].湖南科技大学学报（自然科学版）,2018,33(4):105-112. 被引量：2
10曾羽琚.基于双曲方程特征分解的水生态数据挖掘[J].控制工程,2014,21(4):563-566. 被引量：1

1陈小东,孙力娟,韩崇,郭剑.基于模糊聚类的数据流概念漂移检测算法[J].计算机科学,2016,43(4):219-223. 被引量：4
2刘文涛,张群,孙肃清.关于炼钢厂重调度问题的研究[J].冶金自动化,2004,28(6):5-8. 被引量：4
3曹莉华,胡晓峰,李国辉.基于内容检索中的视频处理技术研究[J].计算机工程与应用,1998,34(6):39-41. 被引量：24
4阳光.发送带提醒功能的邮件[J].电脑迷,2005,0(6):82-82.
5韩崇,袁颖珊,梅焘,耿慧玲.基于K-means的数据流离群点检测算法[J].计算机工程与应用,2017,53(3):58-63. 被引量：13
6张培方.计算机数据采集时间序列控制方法工业应用解析与展望[J].赤峰学院学报（自然科学版）,2013,29(4):30-31.
7吴天舒,陈蜀宇,张涵翠,周真.基于检测域划分的虚拟机异常检测算法[J].计算机应用,2016,36(4):1066-1069.
8程军锋.数据流挖掘技术研究[J].洛阳师范学院学报,2014,33(2):37-39. 被引量：1
9唐和平,黄曙光,吴志勇.数据流分析的二进制程序理解方法[J].计算机工程与应用,2010,46(23):64-66.
10孟磊.分布式业务流程实时一致性分析方法[J].计算技术与自动化,2013,32(3):77-80. 被引量：1

计算机学报

2012年第11期

浏览历史

内容加载中请稍等...

时间敏感数据流上的频繁项集挖掘算法被引量：29

参考文献21

同被引文献285

引证文献29

二级引证文献379

相关作者

相关机构

相关主题

浏览历史

时间敏感数据流上的频繁项集挖掘算法 被引量：29

参考文献21

同被引文献285

引证文献29

二级引证文献379

相关作者

相关机构

相关主题

浏览历史

时间敏感数据流上的频繁项集挖掘算法被引量：29