基于滑动窗口的数据流闭合频繁模式的挖掘被引量：26

Mining Frequent Closed Patterns from a Sliding Window over Data Streams

下载PDF

导出

摘要频繁闭合模式集惟一确定频繁模式完全集并且数量小得多,然而,如何挖掘滑动窗口中的频繁闭合模式集是一个很大的挑战.根据数据流的特点,提出了一种发现滑动窗口中频繁闭合模式的新方法DSCFI.DSCFI算法将滑动窗口分割为若干个基本窗口,以基本窗口为更新单位,利用已有的频繁闭合模式挖掘算法计算每个基本窗口的潜在频繁闭合项集,将它们及其子集存储到一种新的数据结构DSCFItree中,DSCFItree能够增量更新,利用DSCFItree可以快速地挖掘滑动窗口中的所有频繁闭合模式.最后,通过实验验证了这种方法的有效性. The set of frequent closed patterns determines exactly the complete set of all frequent patterns and is usually much smaller than the latter. But how to mine frequent closed patterns from a sliding window is a very big challenge. According to the features of data streams, a new algorithm, call DS_CFI, is proposed to solve the problem of mining the frequent closed itemsets. A sliding window is divided into several basic windows and the basic window is served as an updating unit. Latency frequent closed itemsets of every basic window are mined by the existing frequent closed pattern algorithms. Those itemsets and their subset are stored in a new data structure called DSCFI_tree. The DSCFI_tree can be incrementally updated and the frequent closed itemsets in a sliding window can be rapidly found based on DSCFI_tree. The experimental results show the feasibility and effectiveness of the algorithm.

作者刘学军徐宏炳董逸生钱江波王永利

机构地区东南大学计算机科学与技术系南京工业大学信息科学与工程学院南京

出处《计算机研究与发展》 EI CSCD 北大核心 2006年第10期1738-1743,共6页 Journal of Computer Research and Development

基金江苏省高技术基金项目(BG2004034) 江苏省2004年度研究生创新计划基金项目(xm04-36)~~

关键词数据流闭合频繁项集滑动窗口关联规则知识发现 data stream frequent closed item sliding window association rule knowledge discovery

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献13

1C Giannella,J Han,J Pei,et al.Mining frequent patterns in data streams at multiple time granularities[G].In:H Kargupta,A Joshi,K Sivakumar,et al,eds.Next Generation Data Mining.Cambridge,Mass:MIT Press,2003
2G S Manku,R Motwani.Approximate frequency counts over streaming data[C].The 28th Int'l Conference on Very Large Data Bases (VLDB 2002),Hong Kong,2002
3Song Guojie,Wang Tengjiao,Tang Shiwei,et al.Estimation and maintenance of frequent pattern in data streams[C].National Data Base Conference 2003,Changsha,2003
4Joong Hyuk Chang,Won Suk Lee.Finding recent frequent itemsets adaptively over online data streams[C].The 9th ACM SIGKDD Int'l Conf on Knowledge Discovery and Data Mining (KDD 03),Washington,DC,2003
5Wei Guang Teng,Ming-Syan Chen,Philip S Yu.A regression-based temporal pattern mining scheme for data streams[C].The Int'l Conf on Very Large Data Bases(VLDB 2003),Berlin,Germany,2003
6Graham Cormode,Flip Korn,S Muthukrishnan,et al.Finding hierarchical heavy hitters in data streams[C].The Int'l Conf on Very Large Data Bases (VLDB 2003),Berlin,Germany,2003
7Graham Cormode,S Muthukrishnan.What's hot and What's not:Tracking most frequent items dynamically[C].The ACM Symp on Principles of Database Systems (PODS 2003),San Diego,CA,USA,2003
8C Sirish,M J Franklin.Streaming queries over streaming data[C].The 28th Int'l Conf on Very Large Data Bases,Hong Kong,2002
9N Pasquier,Y Bastide,R Taouil,et al.Discovering frequent closed itemsets for association rules[C].In:Beeri C,et al,eds.Proc of the 7th Int'l Conf on Database Theory.Berlin:Springer-Verlag,1999.398-416
10J Pei,J Han,R Mao.CLOSET:An efficient algorithm for mining frequent closed itemsets[C].In:D Gunopulos,et al,eds.Proc of the 2000 ACM SIGMOD Int'l Workshop on Data Mining and Knowledge Discovery.New York:ACM Press,2000.21-30

二级参考文献8

1[1]Pasquier N, Bastide Y, Taouil R, Lakhal L. Discovering frequent closed itemsets for association rules. In: Beeri C, et al, eds. Proc. of the 7th Int'l. Conf. on Database Theory. Jerusalem: Springer-Verlag, 1999. 398～416.
2[2]Agrawal R, Srikant R. Fast algorithms for mining association rules. In: Beeri C, et al, eds. Proc. of the 20th Int'l. Conf. on Very Large Databases. Santiago: Morgan Kaufmann Publishers, 1994. 487～499.
3[3]Pei J, Han J, Mao R. CLOSET: An efficient algorithm for mining frequent closed itemsets. In: Gunopulos D, et al, eds. Proc. of the 2000 ACM SIGMOD Int'l. Workshop on Data Mining and Knowledge Discovery. Dallas: ACM Press, 2000. 21～30.
4[4]Burdick D, Calimlim M, Gehrke J. MAFIA: A maximal frequent itemset algorithm for transactional databases. In: Georgakopoulos D, et al, eds. Proc. of the 17th Int'l. Conf. on Data Engineering. Heidelberg: IEEE Press, 2001. 443～452.
5[5]Zaki MJ, Hsiao CJ. CHARM: An efficient algorithm for closed itemset mining. In: Grossman R, et al, eds. Proc. of the 2nd SIAM Int'l. Conf. on Data Mining. Arlington: SIAM, 2002. 12～28.
6[6]Liu JQ, Pan YH, Wang K, Han J. Mining frequent item sets by opportunistic projection. In: Hand D, et al, eds. Proc. of the 8th ACM SIGKDD Int'l. Conf. on Knowledge Discovery and Data Mining. Alberta: ACM Press, 2002. 229～238.
7[7]Srikant R. Quest synthetic data generation code. San Jose: IBM Almaden Research Center, 1994. http://www.almaden.ibm.com/ software/quest/Resources/index.shtml
8[8]Blake C, Merz C. UCI Repository of machine learning. Irvine: University of California, Department of Information and Computer Science, 1998. http://www.ics.uci.edu/～mlearn/MLRepository.html

共引文献18

1张莹,韩芳溪,柴乔林.基于频繁模式树的AOI聚类算法[J].计算机工程与应用,2004,40(35):178-179.
2杨萍,李立乡,杨明.快速更新频繁闭合项目集算法[J].计算机工程与应用,2006,42(36):148-151. 被引量：1
3刘旭,毛国君,孙岳,刘椿年.数据流中频繁闭项集的近似挖掘算法[J].电子学报,2007,35(5):900-905. 被引量：14
4程转流,胡为成,胡学钢.基于DSFCI-tree的分布式数据流频繁闭合模式挖掘[J].微电子学与计算机,2007,24(9):120-122. 被引量：2
5宋威,杨炳儒,徐章艳,张桃红.基于索引数组和复合频繁模式树的频繁闭项集挖掘算法[J].计算机科学,2007,34(8):165-167. 被引量：1
6缪裕青,陈国良,徐云.基因表达数据的频繁闭合模式挖掘新算法[J].中国科学技术大学学报,2007,37(9):1080-1087. 被引量：1
7郭宇红,童云海,唐世渭,杨冬青.基于FP-Tree的反向频繁项集挖掘[J].软件学报,2008,19(2):338-350. 被引量：20
8缪裕青,金波,陈国良.HTCLOSE：快速挖掘微阵列数据集中的频繁闭合模式[J].小型微型计算机系统,2008,29(2):274-278.
9程转流,胡学钢.数据流中频繁闭合模式的挖掘[J].计算机工程,2008,34(16):50-52. 被引量：4
10董杰,韩敏.挖掘事务间频繁闭项集的高效率算法[J].控制与决策,2008,23(9):994-998. 被引量：3

同被引文献368

1沈明辉,陈磊,吴瑞林,周伯昭.大气层内动能拦截弹的变增益鲁棒姿控系统设计研究[J].宇航学报,2007,28(3):562-565. 被引量：5
2侯俊杰,李春平.一种基于模式增长的频繁模式挖掘算法[J].华中科技大学学报（自然科学版）,2005,33(z1):272-274. 被引量：1
3邝祝芳,阳国贵,辛动军.SWFPM:一种有效的数据流频繁项挖掘算法[J].计算机应用研究,2009,26(2):466-469. 被引量：4
4陈爱东,刘国华,费凡,周宇,万小妹,貟慧.满足均匀分布的不确定数据关联规则挖掘算法[J].计算机研究与发展,2013,50(S1):186-195. 被引量：18
5易彤,徐宝文,吴方君.一种基于FP树的挖掘关联规则的增量更新算法[J].计算机学报,2004,27(5):703-710. 被引量：32
6金澈清,钱卫宁,周傲英.流数据分析与管理综述[J].软件学报,2004,15(8):1172-1181. 被引量：161
7王大玲,于戈,鲍玉斌.一种具有最大推荐非空率的关联规则挖掘方法[J].软件学报,2004,15(8):1182-1188. 被引量：11
8陈安龙,唐常杰,陶宏才,元昌安,谢方军.基于极大团和FP-Tree的挖掘关联规则的改进算法[J].软件学报,2004,15(8):1198-1207. 被引量：30
9李建中,张冬冬.滑动窗口规模的动态调整算法[J].软件学报,2004,15(12):1800-1814. 被引量：22
10孟小峰,周龙骧,王珊.数据库技术发展趋势[J].软件学报,2004,15(12):1822-1836. 被引量：176

引证文献26

1孙莉.数据库和数据流频繁项集挖掘算法研究[J].现代机械,2007(5):54-57.
2敖富江,杜静,颜跃进,黄柯棣.在线挖掘数据流滑动窗口中频繁闭项集[J].系统工程与电子技术,2009,31(5):1235-1240. 被引量：2
3舒平达,陈华辉.数据流上最近频繁项集挖掘算法[J].计算机工程与应用,2009,45(18):152-155. 被引量：1
4李俊,杨天奇.基于滑动窗口的数据流频繁闭项集挖掘[J].计算机工程,2009,35(13):37-39. 被引量：3
5唐懿芳,穆志纯,张师超,钟达夫.挖掘数据流频繁模式的相关技术和算法研究综述[J].计算机工程与应用,2009,45(26):121-125. 被引量：6
6舒平达,陈华辉.支持多时间粒度的数据流上最频繁K项挖掘[J].宁波大学学报（理工版）,2009,22(4):500-505. 被引量：1
7胡为成,王本年,程转流.基于DSCFCI_tree的带项目约束的数据流频繁闭合模式挖掘算法[J].中国科学技术大学学报,2009,39(11):1194-1201. 被引量：2
8杨蓓,黄厚宽.挖掘数据流界标窗口Top-K频繁项集[J].计算机研究与发展,2010,47(3):463-473. 被引量：6
9王敏,赵晓雷.数据流频繁模式挖掘[J].渭南师范学院学报,2010,25(2):71-74.
10倪志伟,姜苗,王超,戴奇波.在线挖掘数据流混合窗口中闭频繁项集[J].系统仿真学报,2010,22(9):2110-2114. 被引量：2

二级引证文献199

1张子伟,郭齐胜,董志明,陈冉,李林.基于关联规则挖掘的体系作战效能分析[J].装甲兵学报,2022(2):43-49. 被引量：1
2李强,吴裕雄,古国照,陈锡林,陈晔.智能辅助诊疗平台设计与探索[J].医学信息学杂志,2019,40(11):32-35. 被引量：3
3廖纪勇,吴晟,刘爱莲.一种基于邻接矩阵的频繁项集挖掘算法[J].数据通信,2020(6):30-34. 被引量：1
4王永贵,谢南,曲海成.基于存储改进的分区并行关联规则挖掘算法[J].计算机应用研究,2020,37(1):167-171. 被引量：6
5甘亮,金鑫,贾焰,李爱平,盘仰柯.GDG:一种基于逆支配点集的top-k高效查询索引方法[J].计算机研究与发展,2010,47(10):1771-1784. 被引量：4
6袁正午,程宇翔,梁均军,李林.基于流立方体的数据流频繁模式挖掘算法[J].计算机工程,2010,36(22):43-45. 被引量：1
7马青霞,李广水,孙梅.频繁模式挖掘进展及典型应用[J].计算机工程与应用,2011,47(15):138-144. 被引量：6
8张文煜,周满元.数据流中一种基于滑动窗口的前K个频繁项集挖掘算法[J].计算机应用研究,2011,28(7):2519-2521. 被引量：2
9向浩.DS-CABOSFV流数据聚类算法[J].中国科技成果,2011(16):64-66.
10姜苗,倪志伟,孟金华,周之强.数据流时间窗口中闭频繁项集的在线挖掘[J].中国科学技术大学学报,2011,41(8):739-745. 被引量：1

1陆楠,李晓林.基于动态窗口的数据流频繁闭合模式挖掘算法[J].信息与电脑（理论版）,2009(10):100-102.
2程转流,胡学钢.数据流中频繁闭合模式的挖掘[J].计算机工程,2008,34(16):50-52. 被引量：4
3李海峰.基于GPU的闭合频繁项集挖掘方法[J].计算机工程,2011,37(14):59-61. 被引量：1
4程转流,胡为成,胡学钢.基于DSFCI-tree的分布式数据流频繁闭合模式挖掘[J].微电子学与计算机,2007,24(9):120-122. 被引量：2
5李国徽,杨兵,胡惇,陈辉,杜建强.挖掘滑动窗口中的数据流频繁模式[J].小型微型计算机系统,2008,29(8):1491-1497. 被引量：9
6荣文亮,杨燕.基于数据流频繁闭合模式的挖掘[J].计算机应用,2008,28(6):1467-1470.
7胡为成,王本年,程转流.基于DSCFCI_tree的带项目约束的数据流频繁闭合模式挖掘算法[J].中国科学技术大学学报,2009,39(11):1194-1201. 被引量：2
8杨传耀,张成洪,胡运发.一种基于投影和树的闭合频繁模式算法[J].模式识别与人工智能,2008,21(1):6-11.
9董晓,冯宗雪.MFC和OpenGL联合的多视图分割编程方法[J].电子技术（上海）,2016,43(9):51-53. 被引量：2
10江瑜清.基于Ajax新的计算机等级考试MIS设计实现[J].四川文理学院学报,2008,18(2):62-64. 被引量：5

计算机研究与发展

2006年第10期

浏览历史

内容加载中请稍等...

基于滑动窗口的数据流闭合频繁模式的挖掘被引量：26

参考文献13

二级参考文献8

共引文献18

同被引文献368

引证文献26

二级引证文献199

相关作者

相关机构

相关主题

浏览历史

基于滑动窗口的数据流闭合频繁模式的挖掘 被引量：26

参考文献13

二级参考文献8

共引文献18

同被引文献368

引证文献26

二级引证文献199

相关作者

相关机构

相关主题

浏览历史

基于滑动窗口的数据流闭合频繁模式的挖掘被引量：26