基于双压缩的Apriori算法优化设计

Design of Apriori algorithm optimization based on double compression

下载PDF

导出

摘要针对Apriori算法的性能瓶颈问题,提出了一种双压缩Apriori(Apriori double compression,Apriori_DC)算法.该算法通过不断压缩事务数据库,减少事务记录数和数据项,并通过缩减频繁项集从而减少下一步候选频繁项集的数量,最终实现提高算法效率.试验验证表明:在支持度相同而数据量不同,以及数据量相同而支持度不同时,Apriori_DC算法均优于Apriori算法,且在Apriori_DC算法执行过程中,事务数据库的数据量不断缩小. A new algorithm based on double compression, which was called as Apriori double compres- sion （Apriori_ DC ） , was proposed, according to the performance bottleneck problem of Apriori algorithm. Two ways were used to improve performance： the transaction database was continually compressed to re- duce the transaction record and the total item in the database ; the number of the next candidate frequent item set was to reduce by compressing the frequent item set. The experiments showed that Apriori_ DC al- gorithm had better performance than Apriori algorithm when the support ratio was the same and the record number of the database was different or the record number of the database was the same and the support ratio was different. The experiment also showed that the record number of the database was continually reduced during the execution of the Apriori_ DC algorithm.

作者郑建华徐龙琴刘双印张世龙 ZHENG Jianhua;XU Longqin;LIU Shuangyin;ZHANG Shilong(College of Information Science and Technology, Zhongkai University of Agriculture and Engineering, Guangzhou 510225, China)

机构地区仲恺农业工程学院信息科学与技术学院

出处《仲恺农业工程学院学报》 CAS 2017年第4期26-31,共6页 Journal of Zhongkai University of Agriculture and Engineering

基金国家自然科学基金(61471133 61571444) 广东省科技计划(2013B090600065 2017A070712019) 广州市科技计划(201704030098)资助项目

关键词 APRIORI算法 Apriori_DC算法关联规则频繁项集压缩 Apriori algorithm Apriori_ DC algorithm association rule frequent item set compression

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献7

1徐章艳,刘美玲,张师超,卢景丽,区玉明.Apriori算法的三种优化方法[J].计算机工程与应用,2004,40(36):190-192. 被引量：71
2陈方健,张明新,杨昆.一种具有跳跃式前进的Apriori算法[J].计算机应用与软件,2015,32(3):34-36. 被引量：10
3于守健,周羿阳.基于前缀项集的Apriori算法改进[J].计算机应用与软件,2017,34(2):290-294. 被引量：12
4高杰,李绍军,钱锋.数据挖掘中关联规则算法的研究及应用[J].东南大学学报（自然科学版）,2006,36(S1):128-131. 被引量：4
5张伟科.一种改进的AprioriTid算法[J].沈阳工业大学学报,2016,38(3):314-318. 被引量：6
6刘上力,杨清.基于兴趣度剪枝的Apriori优化算法[J].郑州轻工业学院学报（自然科学版）,2011,26(4):68-71. 被引量：1
7李雷,黄蓉.基于Apriori的快速剪枝和连接的新算法（英文）[J].计算机技术与发展,2014,24(5):31-35. 被引量：2

二级参考文献40

1程海明,吴青,赵春华.油液监测故障诊断关联规则的挖掘研究[J].武汉理工大学学报（交通科学与工程版）,2004,28(5):729-731. 被引量：10
2尹群,王丽珍,田启明.一种基于概率的加权关联规则挖掘算法[J].计算机应用,2005,25(4):805-807. 被引量：18
3骆嘉伟,王艳,杨涛,吴君浩.一种结合完全连接的改进Apriori算法[J].计算机应用,2006,26(5):1174-1177. 被引量：4
4Jiawei Han, Micheline Kamber. Data Mining: Concepts and Techniques [ M ]. Second Edition. Beijing: China Machine Press,2006:147 - 172.
5Agrawal R, Imielinski T, Swami A. Mining association rules between sets of items in large databases [ C ]//Proc of the ACM SIGMOD Conf on Mana of Data( SIGMOD'93 ) ,New York : ACM Press, 1993:207 - 216.
6Omiecinski E. Alternative interesting measures for mining associations [ J ]. IEEE Trans Knowledge and Data Eng, 2003,15:57.
7Geng L Q, Hamilton H J. Interestingness measures for data mining: A survey [ J ]. ACM Comp Surveys, 2006, 38 (3):9.
8Brin S, Motwani R, Silverstein C. Beyond market baskets: generalizing association rules to correlations [C]//Proc ACM SIGMOD Int Conf on Mana of Data, Tucson: ACM Press, 1997:265 - 276.
9Huang Wenxue, Krneta Milorad, Lin Limin, et al. Association bundle--A new pattern for association analysis [ C ]// Sixth IEEE Int Conf on Data Mining Workshops( ICDMW' 06) Washington : IEEE Computer Society ,2006:601 - 605.
10FIMI. Frequent Itemset Mining Dataset Repository [ EB/ OL]. (2003 - 11 - 19 ) [ 2011 - 03 - 08 ]. http ://fimi. cs. helsinki, fi/data/,2003.

共引文献98

1芦洁,刘志镜.挖掘关联规则中对Apriori算法的一个改进[J].微电子学与计算机,2006,23(2):10-12. 被引量：23
2彭仪普,熊拥军.关联规则挖掘AprioriTid算法优化研究[J].计算机工程,2006,32(5):55-57. 被引量：24
3唐瑜,王勇,杨辉华.挖掘最大频繁项集的优化方法[J].计算机工程与应用,2006,42(31):171-173. 被引量：5
4郭有强,胡学钢.基于项目增长法高效求解最大频繁项集[J].安徽科技学院学报,2006,20(6):62-66. 被引量：1
5谢琦,张振兴.基于Apriori算法和OLAP的关联规则挖掘模型设计[J].计算机应用,2007,27(B06):4-5. 被引量：8
6柴华昕,王勇.Apriori挖掘频繁项目集算法的改进[J].计算机工程与应用,2007,43(24):158-161. 被引量：30
7郭有强,胡学钢.快速关联规则增量式更新算法研究[J].安庆师范学院学报（自然科学版）,2007,13(2):17-20.
8郭有强.增量式频集快速维护算法研究[J].计算机技术与发展,2007,17(11):74-76.
9刘军锋,李景文,陈大克,邓晓斌.一种改进的关联规则自顶向下算法[J].计算机技术与发展,2008,18(2):136-138. 被引量：4
10郭健美,宋顺林,肖仁财.高效的关联规则挖掘算法[J].计算机工程与设计,2008,29(13):3378-3380. 被引量：4

1李东东,朱钱唯,程云志,刘庆飞,林顺富,杨帆,边晓燕.基于自适应惯量阻尼综合控制算法的虚拟同步发电机控制策略[J].电力自动化设备,2017,37(11):72-77. 被引量：55
2伊鹏,周桥,门浩崧.基于HMM的动态社会网络社团发现算法[J].计算机研究与发展,2017,54(11):2611-2619. 被引量：5
3艾金勇.基于关联规则的高校图书馆读者借阅行为研究——以西藏民族大学图书馆为例[J].西藏民族大学学报（哲学社会科学版）,2017,38(4):142-146. 被引量：2
4吴润泽,陈文伟,唐良瑞,范军丽.基于高风险模式树挖掘方法的电力系统风险设备集分析[J].电力系统自动化,2017,41(18):137-145. 被引量：10
5何建民,辛琳怡,刘业政.网络影响力用户社会资本信息熵度量方法[J].甘肃科学学报,2017,29(6):121-130.
6李伟,朱赵元.一种基于并行矩阵目标明确的Apriori算法[J].浙江工业大学学报,2017,45(5):574-579. 被引量：5
7王峰山,王晓娟.基于二叉树编码的关联规则动态挖掘算法[J].计算机应用与软件,2017,34(12):53-57.
8王翔,陈国君,洪毅,周斌,葛进,李钦传.非血栓性髂静脉压迫性病变的血管腔内治疗[J].同济大学学报（医学版）,2017,38(5):58-62. 被引量：11
9王家海,陈煜.数据驱动的Job Shop生产调度知识挖掘及优化[J].计算机工程与应用,2018,54(1):264-270. 被引量：5
10杨乐江,闫莹莹.勤哲Excel服务器搭建编辑管理系统的应用[J].电子技术与软件工程,2018(1):171-173. 被引量：1

仲恺农业工程学院学报

2017年第4期

浏览历史

内容加载中请稍等...

基于双压缩的Apriori算法优化设计

参考文献7

二级参考文献40

共引文献98

相关作者

相关机构

相关主题

浏览历史