分布环境中的并行频繁模式挖掘算法被引量：3

Parallel Algorithm for Mining Frequent Patterns in Distributed Environment

下载PDF

导出

摘要频繁模式的并行挖掘算法是数据挖掘中重要的研究课题。目前已经提出的并行算法大多是基于Apriori或基于FP-tree。由于两者的固有局限性,而且在计算过程中需要多次同步,因而具有较低的性能。文章提出了一种基于分布数据库的并行挖掘算法。该算法尽可能地让每个处理器独立地挖掘,每个处理器基于前缀树采用深度优先搜索的策略挖掘局部频繁模式集,并通过相关性质尽量减少候选全局频繁模式的规模,减少网络的通信量和同步次数以提高挖掘效率。 Parallel mining frequent patterns is a key problem in data mining research.There are many parallel algorithms based on Apriori or FP-tree,which have some inherent drawbacks and require many synchronization steps. So, they achieve poor performances.Therefore,parallel mining algorithm PMFP in distributed database is proposed.PMFP attempts to make each processor to do independently and decrease the number of candidate of global frequent patterns according to the relation between local frequent pattern and global frequent pattern.Therefore,the algorithm uses far less communication overhead and fewer synchronization steps,improves efficiency of mining global frequent patterns.

作者阮幼林李庆华刘干

机构地区武汉理工大学信息工程学院华中科技大学计算机科学与技术学院

出处《计算机工程与应用》 CSCD 北大核心 2005年第25期1-3,22,共4页 Computer Engineering and Applications

基金国家自然科学基金项目(编号:60273075)

关键词频繁模式并行算法前缀树全局频繁模式 frequent patterns,parallel algorithm,prefix tree,global frequent pattern

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献10

1Agrawal R,Srikant R.Fast Algorithm for Mining Association Rules[C]. In : VLDB' 94,1994-09:489-499.
2Park J S,Chen M-S,Yu P S.An Effective Hash Based Algorithm for Mining Association Rules[C].In:Proc ACM SIGMOD Int Conf on Management of Data, 1995 : 175-186.
3Agarwal R,Aggrawal C,V V V Prasad.A Tree Projection Algorithm for Generation of Frequent Itemsets[J].Journal of parallel and Distributed Computing, 2000:427-434.
4J Han,J Pei,Y Yin.Mining Frequent Patterns Without Candidate Generation[C].In : Proc ACM-SIGMOD, Dallas ,TX, 2000-05.
5R Agrawal,J C Shafer.Parallel Mining of Association Rules[J].IEEE Trans on Knowledge and Data Engineering,1996;8(6):962-969.
6Jong Soo Park ,Ming-Syan Chen,Philip S Yu.Efficient Parallel and Data Mining for Association Rules[C].In:Proceedings of the 1995 International Conference on Information and Knowledge management, Baltimore, Maryland, USA, 1995 : 31 -36.
7David Wai-Lok Cheung,Vincent Ng,Ada Wai-Chee Fu et al.Efficient Mining of Association Rules in Distributed Databases[J].IEEE Transaction on Knowledge and Data Engineering, 1996; 8 ( 1 ) :911 -922.
8A Schuster,R Wolff.Communication efficient distributed mining of association rules[C].In:Proc of the 2001 ACM SIGMOD Int'l Conference on Management of Data ,2001-05:473-484.
9杨明,孙志挥,吉根林.快速挖掘全局频繁项目集[J].计算机研究与发展,2003,40(4):620-626. 被引量：35
10朱光喜,吴伟民,阮幼林,刘干.一种基于前缀树的频繁模式挖掘算法[J].计算机科学,2005,32(4):34-36. 被引量：4

二级参考文献9

1RAgrawa1 TImie1inSki Aswami.Mining association ru1es between sets of items in 1arge database[J].The ACM SIGMOD Intemationa1 Conf on Management of Data, Washington, DC,1993,.
2Agrawal R, Srikant R. Fast Algorithm for Mining Association Rules. In VLDB' 94,Sep. 1994. 489～499
3Park J S,Chen M-S,Yu P S. An Effective Hash Based Algorithm for Mining Association Rules. In:Proc. ACM SIGMOD Int. Conf.on Management of Data,1995. 175～186
4Chen M Y, Han J, Yu P. Data Mining: An Overview from a Database Perspective. IEEE Transactions on Knowledge and Data Engineering. 1996,8 (6): 866～ 883
5Hah J,Pei J,Yin Y. Mining Frequent Patterns Without Candidate Generation. In:Proc. ACM-SIGMOD, Dallas, TX, May 2000
6Agarwal R,Aggrawal C,Prasad V V V. A Tree Projection Algorithm for Generation of Frequent Itemsets ,Journal of parallel and Distributed Computing, 2000. 427～434
7Huang H,Wu X,Relue R. Association Analysis with One Scan of Databases. In: Proc. of Pacific-Asia Conference, PAKDD, 2002.334～334
8Liu Guimei,Lu Hongjun,Xu Yabo ,Yu J Xu. Ascending Frequency Ordered Prefix-tree: Efficient Mining of Frequent Patterns. In:Proc. of 8th Database Systems for Advanced Applications (DASFAA'03)
9路松峰,卢正鼎.快速开采最大频繁项目集[J].软件学报,2001,12(2):293-297. 被引量：113

共引文献37

1杨明,孙志挥,宋余庆.快速更新全局频繁项目集[J].软件学报,2004,15(8):1189-1197. 被引量：18
2冀振明,陶世群.基于电信运营中大客户流失的数据挖掘模型[J].计算机工程与应用,2004,40(23):169-171. 被引量：5
3杨明,孙志挥.一种基于最大加权频繁项目集的数据库相似性判别算法[J].计算机研究与发展,2004,41(10):1774-1779. 被引量：1
4李宏,杜剑峰,陈松乔.分布式数据库约束性关联规则挖掘[J].中南大学学报（自然科学版）,2004,35(6):998-1003. 被引量：1
5杨明,杨萍.一种基于前缀广义表的快速间接关联挖掘算法[J].安徽工程科技学院学报（自然科学版）,2004,19(4):40-45.
6杜威,邹先霞.基于PC-树的关联规则挖掘方法[J].计算机工程与设计,2005,26(2):445-447. 被引量：3
7陆介平,杨明,孙志挥,鞠时光.快速挖掘全局最大频繁项目集[J].软件学报,2005,16(4):553-560. 被引量：27
8曹洪其,姜志峰,孙志挥.分布式数据库多层关联规则挖掘算法研究[J].计算机应用,2005,25(12):2858-2861. 被引量：1
9何波,王华秋,刘贞,王越.快速挖掘频繁项集的并行算法[J].计算机应用,2006,26(2):391-392. 被引量：5
10顾海花,赵传申,孙志挥.一种基于多关联规则的全局快速分类算法[J].计算机工程与应用,2006,42(22):161-163.

同被引文献18

1陆介平,杨明,孙志挥,鞠时光.快速挖掘全局最大频繁项目集[J].软件学报,2005,16(4):553-560. 被引量：27
2陈凯,冯全源.基于矩阵伪投影策略的频繁项集挖掘方法[J].微计算机信息,2005,21(11X):85-87. 被引量：8
3刘志昆,王卫平.基于精确序列模式的网页个性化推荐[J].计算机系统应用,2006,15(5):32-35. 被引量：2
4Agrawa IR,Imielinski T,Swami A.Mining association rules between sets of items in large databases (C).In:Buneman P,Jajodia S,eds.Proc.of the ACM SIGMOD Conf.on Management of Data (SIGMOD'93).New York:ACM Press,1993:207～216
5Han J,Pei J,Yin Y.Mining frequent patterns without candidate generation.In:Chen WD,Naughton J,Bernstein PA,eds.Proc.of the 2000 ACM SIGMOD Int'l Conf.on Management of Data (SIGMOD 2000).New York:ACM Press,2000:1～12
6David Wai-Lok Cheung,Vincent Ng,Ada Wai-Chee Fu et al.Efficient mining of association rules in distributed Databases[J].IEEE transaction on knowledge and data engineering,1996,8(1):911～922
7何建忠,吕振俊.基于两个矩阵的关联规则挖掘优化算法[J].计算机工程,2008,34(17):56-58. 被引量：9
8李伟,李先国.基于频繁模式矩阵的改进挖掘算法研究[J].科学技术与工程,2010,10(4):1024-1027. 被引量：1
9杨景,郑钟志,宋金歌,段鹏.基于矩阵的频繁项集挖掘算法[J].云南民族大学学报（自然科学版）,2010,19(5):334-336. 被引量：2
10肖颖,毛国君.分布式数据流中挖掘频繁项算法的研究[J].微计算机信息,2010,26(30):144-145. 被引量：2

引证文献3

1李忠哗,何丕廉.一种分布环境中最大频繁项目集挖掘算法[J].微电子学与计算机,2006,23(9):162-164. 被引量：1
2张芸,吕廷杰,李海强.基于情景感知的N-gram改进预测模型研究[J].微计算机应用,2009,30(9):1-7. 被引量：4
3丁洁.一种基于云平台的频繁项集数据挖掘改进算法[J].自动化技术与应用,2019,38(7):74-77. 被引量：6

二级引证文献11

1白洪涛,欧阳丹彤,何丽莉.一种基于图形处理器的频繁模式挖掘算法[J].仪器仪表学报,2009,30(10):2082-2087. 被引量：6
2周朴雄,张兵荣,赵龙文.基于BP神经网络的情境化信息推荐服务研究[J].情报科学,2016,34(3):71-75. 被引量：30
3栗元邦,彭蓉,季晶晶,王帮超,赖涵.经验研究中情景感知需求获取与建模系统文献综述[J].软件学报,2018,29(2):320-339. 被引量：5
4高永梅,鲍福光.融入位置情景的移动用户行为挖掘方法研究[J].数学的实践与认识,2018,48(16):72-84. 被引量：5
5王福,庞海燕,毕强.移动图书馆场景化信息接受的位置兴趣挖掘[J].情报理论与实践,2019,42(12):86-93. 被引量：6
6刘斯烟,张程,钟藩远,张智勇,文维.多尺度混合算法在智慧能源需求数据挖掘中的应用[J].电子设计工程,2020,28(11):36-39. 被引量：5
7唐菡悄,沈磊.云模型数据挖掘算法的高校教育信息化效益评估模型构建[J].现代电子技术,2020,43(13):25-27. 被引量：3
8王新龙.基于偏微分方程的关联特征数据挖掘改进方法研究[J].现代电子技术,2021,44(18):111-113. 被引量：3
9李军.基于关联规则的工业控制系统运维数据挖掘方法[J].微型电脑应用,2023,39(9):167-170.
10孙瑞.基于云计算的英语教学资源快速挖掘系统设计[J].信息技术,2023,47(9):47-51.

1郭景峰,路燕.一种数据挖掘关联规则的高效算法[J].燕山大学学报,2001,25(3):213-216. 被引量：5
2申展,江宝林,唐磊,胡运发.基于互关联后继树的频繁模式挖掘研究[J].计算机工程,2004,30(21):30-32. 被引量：2
3薛永庆,徐维祥.一种适应大型数据库的多支持度关联规则算法[J].计算机工程与应用,2008,44(2):182-185. 被引量：1
4荀亚玲,吴晓婷,张继福.一种网格环境下的FP-树分布式构造算法[J].计算机工程与应用,2011,47(31):128-131. 被引量：2
5陈一心,杨磊,杨颖.基于分布式全局频繁项集挖掘算法的研究[J].计算机光盘软件与应用,2012,15(24):156-156.
6缪裕青.基于频繁模式树的最大频繁模式挖掘算法[J].桂林电子工业学院学报,2004,24(3):23-26.
7朱琼,施荣华.一种数据流中的频繁模式挖掘算法[J].计算机应用,2008,28(6):1463-1466. 被引量：3
8陈嶷瑛,武强,李文斌.不生成候选项目集的并行挖掘关联规则[J].计算机工程,2007,33(4):34-36.
9吴再龙,张云泉,徐建良,贾海鹏,颜深根,解庆春.基于OpenCL的Kmeans算法的优化研究[J].计算机科学与探索,2014,8(10):1162-1176. 被引量：4
10张继福,刘静,张荣国.适用于动态交易数据库的关联规则更新算法[J].计算机应用,1999,19(S1):158-160. 被引量：2

计算机工程与应用

2005年第25期

浏览历史

内容加载中请稍等...

分布环境中的并行频繁模式挖掘算法被引量：3

参考文献10

二级参考文献9

共引文献37

同被引文献18

引证文献3

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

分布环境中的并行频繁模式挖掘算法 被引量：3

参考文献10

二级参考文献9

共引文献37

同被引文献18

引证文献3

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

分布环境中的并行频繁模式挖掘算法被引量：3