基于Hadoop的关联规则挖掘算法研究——以Apriori算法为例被引量：18

Research on Association Rules Mining Algorithm Based on Hadoop——Taking Apriori as an Example

下载PDF

导出

摘要为了解决传统关联规则挖掘算法在挖掘效率、算法扩展性等方面无法适应大数据挖掘需求的问题,以经典的关联规则挖掘算法—Apriori算法为例,首先基于Hadoop平台和MapReduce编程模型,实现算法的并行化。在此基础上,基于事务缩减的思想对算法进行优化,进一步提高算法的挖掘效率。搭建Hadoop集群环境,对算法的挖掘结果和挖掘效率进行实验。通过并行挖掘结果验证、串行版与并行版效率对比、挖掘时间与节点数目的变化关系、挖掘时间与数据量的变化关系4组实验,结果表明:文中实现的Apriori算法不仅能够准确挖掘频繁项集,而且比传统串行算法具有更高的挖掘性能和可扩展性。该算法能够更好地适应大数据集的挖掘要求,能够实现从大规模数据集中高效挖掘频繁项集和关联规则。 In order to solve the problem that the traditional association rules mining algorithm has been unable to meet the mining needs of large amount of data in the aspect of efficiency and scalability,take Apriori as an example,the algorithm is realized in the parallelization based on Hadoop framework and MapReduce model. On the basis,it is improved using the transaction reduce method for further enhancement of the algorithm ＇s mining efficiency. The experiment,which consists of verification of parallel mining results,comparison on efficiency between serials and parallel,variable relationship between mining time and node number and between mining time and data amounts,is carried out in the mining results and efficiency by Hadoop clustering. Experiments showthat the paralleled Apriori algorithm implemented is able to accurately mine frequent item sets,with a better performance and scalability. It can be better to meet the requirements of big data mining and efficiently mine frequent item sets and association rules from large dataset.

作者刘木林朱庆华

机构地区南京大学信息管理学院

出处《计算机技术与发展》 2016年第7期1-5,共5页 Computer Technology and Development

基金国家自科基金面上项目(71473114)

关键词数据挖掘关联规则 HADOOP APRIORI data mining association rules Hadoop Apriori

分类号 TP393 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献26

1Agrawal R, Srikant R. Fast algorithms for mining association rules[ C ]//Proceedings of the 20th VLDB conference. Santiago, Chile : [ s. n. ], 1994:487-499.
2Han J, Pei J, Yin Y. Mining frequent patterns without candidate generation [ J ]. ACM SIGMOD Record, 2000,29 ( 2 ) : 1 - 12.
3Agrawal R, Shafer J C. Parallel mining of association rules [ J]. IEEE Transactions on Knowledge and Data Engineering, 1996,8(6) :962-969.
4Zaki M J. Scalable algorithms for association mining [ J ]. IEEE Transactions on Knowledge and Data Engineering, 2000, 12 (3) :372-390.
5Park J S, Chen M S, Yu P S. An effective hash-based algorithm for mining association rules[ J]. ACM SIGMOD Record, 1995,24(2) :175-186.
6Sarasere A, Omiecinsky E, Navathe S. An efficient algorithm for mining association rules in large databases [ C]//Proc of 21 st international conference on very large databases. Zurich, Switzerland : [ s. n. ] , 1995.
7Toivonen H. Sampling large databases for association rules [C]//Proc of conference on very large data bases. [s. l. ]: [s. n. ] ,1999:134-145.
8孙逢啸,倪世宏,谢川.一种基于矩阵的Apriori改进算法[J].计算机仿真,2013,30(8):245-249. 被引量：21
9罗丹,李陶深.一种基于压缩矩阵的Apriori算法改进研究[J].计算机科学,2013,40(12):75-80. 被引量：46
10高海洋,沈强,张轩溢,赵志军.一种基于数据压缩的Apriori算法[J].计算机工程与应用,2013,49(14):117-120. 被引量：6

二级参考文献74

1秦亮曦,苏永秀,刘永彬,梁碧珍.基于压缩FP-树和数组技术的频繁模式挖掘算法[J].计算机研究与发展,2008,45(z1):244-249. 被引量：16
2李敏,李春平.频繁模式挖掘算法分析和比较[J].计算机应用,2005,25(B12):166-171. 被引量：11
3徐前方,阚建杰,李永春,李荣盛,郭军.一种具有时序特征的告警关联规则挖掘算法[J].微电子学与计算机,2007,24(3):23-26. 被引量：6
4李志云,周国祥.一种基于MFP树的快速关联规则挖掘算法[J].计算机技术与发展,2007,17(6):94-96. 被引量：6
5Dean J, Ghemmawat S. MapReduce: simplied data processing on large clusters [ C ]//Proceedings of the 6th Sympesium on Operating System Design and Implementation. New York: ACM Press, 2004:137 -150.
6Ranger C, Raghuraman R, Penmetsa A. Evaluating MapReduce for multicore and mutiprocessor systems [ C ] //Proceedings of the 2007 IEEE 13th International Symposium on High Performance Computer Architecture. Washington: IEEE Computer Society, 2007 : 13 -24.
7Kruuf M D, Sankaralinggam K. MapReduce for the cell B.E. architecture [ R ]. Madison: University of Wisconsin - Madison, 2007.
8He Bing - sheng, Fang Wen - bin, Naga K Govindaraju, et al. Mars : a MapReduce framework on graphics processors [ C ] // Proceedings of the 17th International Conference on Parallel Architectures and Compilation Techniques. New York: ACM Press, 2008 : 260 "269.
9Zaharia M, Konwinski A, Joseph A D. Improving MapReduce performance in heterogeneous environments [ C ] //Proceedings of the 8th USENIX Symposium on Operating Systems Design and Implementation. New York: ACM Press, 2008:29 -42.
10Tomwhite.Hadoop权威指南:中文版[M].曾大聃,周傲英,译.北京:清华大学出版社,2010.

共引文献132

1廖纪勇,吴晟,刘爱莲.一种基于邻接矩阵的频繁项集挖掘算法[J].数据通信,2020(6):30-34. 被引量：1
2赵欣灿,朱云,毛伊敏.基于MapReduce的Apriori算法增量挖掘[J].计算机应用研究,2020,37(S02):73-75. 被引量：6
3刘红婷,程琦峰,杨雪梅.基于FP-growth算法的高校招生就业决策分析系统研究与设计[J].科技广场,2011(11):60-64. 被引量：1
4傅向华,陈冬剑,王志强.基于倒排索引位运算的深度优先频繁项集挖掘[J].小型微型计算机系统,2012,33(8):1747-1751. 被引量：7
5丁振,项颖.基于Hadoop的关联规则算法在电子商务中的应用[J].计算机与现代化,2012(8):122-125. 被引量：4
6曾蕴波,王明微,范海涛.面向MBSE的产品阶段模型的要素演化关系发现方法研究[J].制造业自动化,2013,35(5):147-150. 被引量：5
7张爱科,符保龙.基于高维聚类的探索性文本挖掘算法[J].计算机应用,2013,33(4):988-990. 被引量：4
8江雨燕,李平.基于PFP-Growth算法的海量频繁项集挖掘[J].计算机技术与发展,2013,23(9):63-65. 被引量：2
9温海波.基于项对索引链表的优化FP-Growth算法[J].哈尔滨师范大学自然科学学报,2013,29(4):55-59.
10吕婉琪,钟诚,唐印浒,陈志朕.Hadoop分布式架构下大数据集的并行挖掘[J].计算机技术与发展,2014,24(1):22-25. 被引量：21

同被引文献149

1袁平,张伟.关联规则的并行挖掘模型研究[J].计算机科学,2004,31(7):181-182. 被引量：2
2陈文亮,朱慕华,朱靖波,姚天顺.基于Bootstrapping的文本分类模型[J].中文信息学报,2005,19(2):86-92. 被引量：6
3苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：387
4唐慧丰,谭松波,程学旗.基于监督学习的中文情感分类技术比较研究[J].中文信息学报,2007,21(6):88-94. 被引量：136
5徐军,丁宇新,王晓龙.使用机器学习方法进行新闻的情感自动分类[J].中文信息学报,2007,21(6):95-100. 被引量：107
6张苗,张德贤.多类支持向量机文本分类方法[J].计算机技术与发展,2008,18(3):139-141. 被引量：18
7刘华婷,郭仁祥,姜浩.关联规则挖掘Apriori算法的研究与改进[J].计算机应用与软件,2009,26(1):146-149. 被引量：119
8李浩,薛镭,朱岩.基于云计算的医疗信息共享体系[J].中国卫生信息管理杂志,2011,8(3):65-69. 被引量：7
9宋威,李晋宏,徐章艳,杨炳儒.一种新的频繁项集精简表示方法及其挖掘算法的研究[J].计算机研究与发展,2010,47(2):277-285. 被引量：18
10谢桂兰,罗省贤.基于Hadoop MapReduce模型的应用研究[J].微型机与应用,2010,29(8):4-7. 被引量：69

引证文献18

1王青,谭良,杨显华.基于Spark的Apriori并行算法优化实现[J].郑州大学学报（理学版）,2016,48(4):60-64. 被引量：12
2宋丽萍,韦建国.基于关联规则挖掘技术的学生数据分析系统的设计与实现[J].长沙大学学报,2017,31(2):58-61. 被引量：2
3李融,杨淙钧,高泽,李常宝,刘忠麟,艾中良.基于Spark的精准关联规则挖掘算法实现[J].信息技术,2018,42(2):153-158. 被引量：4
4聂捷楠.大规模数据库中非显著特征动态数据实时挖掘技术[J].科学技术与工程,2018,18(21):252-257. 被引量：3
5王诚,赵申屹.一种改进的并行关联规则增量更新算法研究[J].计算机技术与发展,2018,28(7):48-52. 被引量：1
6倪政君,夏哲雷.Flink的并行Apriori算法设计与实现[J].中国计量大学学报,2018,29(2):175-180. 被引量：4
7令宝.基于数据挖掘的运动员神经类型特征评估系统构建[J].自动化与仪器仪表,2018,0(10):165-168. 被引量：2
8朱兴动,章思宇,王正.飞机故障维修记录关联规则挖掘方法[J].兵器装备工程学报,2019,40(7):164-169. 被引量：8
9周佩,朱娴睿,何汉,张毅.大数据环境下基于Hadoop框架的数据挖掘算法的研究与实现[J].电脑知识与技术（过刊）,2017,23(10X):222-223. 被引量：4
10黄秋勇.Hadoop平台的关联挖掘算法研究[J].广西科技师范学院学报,2017,32(1):132-135.

二级引证文献66

1AnneHudsonJones.医学与文学的传统及创新[J].医学与哲学,2000,21(5):59-61. 被引量：12
2祝永志.基于Spark的Hybrid推荐算法的研究与实现[J].电子技术（上海）,2018,47(12):59-62. 被引量：2
3朱晓敏,祁建军.基于三支概念格线图的混合蕴含获取[J].郑州大学学报（理学版）,2017,49(4):16-21. 被引量：5
4李融,杨淙钧,高泽,李常宝,刘忠麟,艾中良.基于Spark的精准关联规则挖掘算法实现[J].信息技术,2018,42(2):153-158. 被引量：4
5祝永志.基于Spark技术的ALS推荐算法的可扩放性研究[J].电子技术（上海）,2018,47(6):27-29. 被引量：1
6高琪娟,刘锴,陈佳.面向Spark的图书借阅数据关联模型的研究[J].安徽农业大学学报,2018,45(4):768-771. 被引量：7
7令宝.基于数据挖掘的运动员神经类型特征评估系统构建[J].自动化与仪器仪表,2018,0(10):165-168. 被引量：2
8王进,晏世凯,高延雨,金理雄,胡明星,邓欣,陈乔松.基于MPI的ML-kNN算法并行[J].郑州大学学报（理学版）,2018,50(3):34-38. 被引量：4
9梁瑷云,袁丁,严清,刘小久.Spark平台下关联规则算法的优化实现[J].计算机工程与设计,2018,39(12):3692-3699. 被引量：4
10周显春,肖衡,高华玲.Apriori算法在个性化学习中的应用研究[J].现代计算机（中旬刊）,2018(12):18-22.

1陈福集,李福平.基于多个最小支持度的频繁项目集挖掘算法[J].计算机工程,2011,37(24):36-37. 被引量：2
2张翠翠,阮树骅.用于短频繁项的隐私保护关联规则挖掘方法[J].电子科技,2016,29(5):88-92. 被引量：5
3唐颖峰,陈世平.一种基于后缀项表的并行闭频繁项集挖掘算法[J].计算机应用研究,2014,31(2):373-377. 被引量：11
4魏本昌.基于信息表和差集的关联规则挖掘[J].计算机应用与软件,2010,27(12):202-204. 被引量：4
5李涛.一种快速的关联规则挖掘算法[J].软件导刊,2007,6(12):140-141. 被引量：1
6刘静,王颖.决策树算法在数据挖掘中研究与应用[J].邢台职业技术学院学报,2007,24(5):30-32. 被引量：4
7石可,孟令旸.数据挖掘在通信企业管理系统中的应用[J].中国新通信,2017,19(1):14-15. 被引量：2
8刘新颖,王丽亚.基于Web的数据挖掘算法与数据仓库的接口设计[J].计算机工程,2006,32(21):88-90. 被引量：10
9潘巧海.把握趋数、挖掘需求、创新服务——为用户提供智能安防系统[J].A&S（安全&自动化）,2009(8):128-132.
10司蕾.IPSEC场景应用分析[J].科技传播,2010,2(21):222-222.

计算机技术与发展

2016年第7期

浏览历史

内容加载中请稍等...

基于Hadoop的关联规则挖掘算法研究——以Apriori算法为例被引量：18

参考文献26

二级参考文献74

共引文献132

同被引文献149

引证文献18

二级引证文献66

相关作者

相关机构

相关主题

浏览历史

基于Hadoop的关联规则挖掘算法研究——以Apriori算法为例 被引量：18

参考文献26

二级参考文献74

共引文献132

同被引文献149

引证文献18

二级引证文献66

相关作者

相关机构

相关主题

浏览历史

基于Hadoop的关联规则挖掘算法研究——以Apriori算法为例被引量：18