基于相关规则的不平衡数据的关联分类被引量：3

Correlated Rules Based Associative Classification for Imbalanced Datasets

下载PDF

导出

摘要许多研究表明关联分类具有较高的分类准确率,然而,大多数关联分类基于"支持度-置信度"框架,在不平衡数据集中,置信度和支持度都偏向产生多数类的规则,因此,少数类的实例容易被错误分类。针对上述问题,提出了一种基于相关规则的不平衡数据的关联分类算法。该算法挖掘频繁且互关联的项集,在以该项集为前件的分类规则中选取提升度最大的规则。规则按结合了提升度、置信度和补类支持度(CCS)的规则强度进行排序。实验表明,该算法取得了较高的平均分类准确率且在分类少数类的实例时具有更高的准确率。 Many studies have shown that associative classification is a promising classification method. However, most algorithms of associative classifications may not achieve high classification performance on imbalanced datasets because they generate rules based on the ＂support-confidence＂ framework. The confidence （support） tends to bias the majority class in imbalanced datasets. As a result, these instances with minority class may be misclassified. We proposed a new associative classification approach called CRAC （Correlated Rules based Associative Classification for Imbalanced Data- sets）. First, we mine frequent and mutual associative itemsets for classification. Therefore, we will generate small set of high-quality rules. Second,CRAC only select the rule with largest lift as a CAR among all rules with that frequent and associative itemset as condition. As a result, the antecedent and the consequent of the rules CRAC generated are posi- tively correlated. Finally,we rank rules according to a new metric which integrates lift, support and Complement Class Support （CCS）. So, we are likely to use rules with positively correlation to prediction the minority class. Our experiments on fifteen UCI data sets show that our approach is an effective classification technique for both balance and imbalanced datasets, and has better average classification accuracy in comparison with CBA.

作者黄再祥周忠眉何田中

机构地区漳州师范学院计算机科学与工程系

出处《计算机科学》 CSCD 北大核心 2014年第2期111-113,122,共4页 Computer Science

基金国家自然科学基金(61170129) 福建省自然科学基金(2013J01259)资助

关键词数据挖掘关联分类不平衡数据相关规则 Data mining, Associative classification, Imbalance datasets, Correlated rules

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献13

1Liu B, Hsu W, Ma Y. Integrating classification and association rule mining[C]//Proc of the 4th International Conference on Knowledge Discovery and Data Mining (KDD' 98). 1998:80-86.
2Li W, Han J, Pei J. CMAR: Accurate and efficient classification based on multiple class-association rules[C]//Proc of the 1 st In- ternational Conference on Data Mining. 2001:369-376.
3Yin X, Han J. CPAR: classification based on predictive associa- tion rules[C]//Proc of the SIAM International Conference on Data Mining (SDM'03). 20031331-335.
4Dong G, Zhang X,Wong L, et al. CAEP: Classification by aggre- gating emerging patterns[C]//Discovery Science. Springer Ber- lin Heidelberg, 1999130-42.
5Wang J, Karypis G. HARMONY: Efficiently mining the best rules for classification[C]//Proc, of SDM. 2005:205-216.
6Quinlan J R. CA. 5:programs for machine learning[M]. Morgan kaufmarm, 1993.
7Verhein F, Chawla S. Using significant, positively associated and relatively class correlated rules for associative classification of imbalanced datasets [C] /// Seventh IEEE International Confe- rence on Data Mining, 2007, ICDM 2007. IEEE, 2007 : 679-684.
8Arunasalam B, Chawla S. CCCS: a top-down associative classifier for imbalanced class distribution[C]//Proceedings of the 12th ACM SIGKDD international conference on Knowledge discovery and data mining. ACM,2006:517-522.
9Omiecinski E R. Alternative interest measures for mining associa- tions in databases [J]. IEEE Transactions on Knowledge and Data Engineering, 2003,15(1) 157-69.
10Zhao Y, Karypis G. Criterion functions for document clustering; Experiments and analysis [Z]. Machine Learning, 2001.

同被引文献6

1罗晓利.1990～2003年中国民航152起小于间隔飞行事件的分类统计研究[J].中国安全科学学报,2004,14(12):26-32. 被引量：46
2任秀丽,史忠植.基于数据挖掘的银行全成本分析[J].计算机应用研究,2007,24(9):53-54. 被引量：4
3李学明,杨阳,秦东霞,周尚波.基于频繁闭项集的新关联分类算法ACCF[J].电子科技大学学报,2012,41(1):104-109. 被引量：14
4於孝春,贾朋美,张兴.基于模糊Bow-tie模型的城镇燃气管道泄漏定量风险评价[J].天然气工业,2013,33(7):134-139. 被引量：38
5解学才,杨振宏,许贵阁.基于改进的HFACS和SPA的矿山安全人因分析[J].安全与环境学报,2015,15(3):37-42. 被引量：19
6王卫平,周忠眉,郑艺峰.基于支持度和增比率的改进关联分类算法[J].计算机工程与科学,2016,38(2):370-375. 被引量：4

引证文献3

1王卫平,周忠眉,郑艺峰.基于支持度和增比率的改进关联分类算法[J].计算机工程与科学,2016,38(2):370-375. 被引量：4
2全秀祥,周忠眉,黄再祥.一种改进的关联分类算法[J].计算机工程与科学,2017,39(10):1966-1970.
3庞兵,于雯宇.基于改进的HFACS和模糊理论的航空事故人因分析[J].安全与环境学报,2018,18(5):1886-1890. 被引量：23

二级引证文献27

1蒋浩,王泉川.飞机姿态仪辨别绩效对航空安全的影响[J].安全与环境学报,2019,19(2):542-547.
2全秀祥,周忠眉,黄再祥.一种改进的关联分类算法[J].计算机工程与科学,2017,39(10):1966-1970.
3吴辰文,郭叔瑾,李晨阳.结合高斯混合模型的关联分类离散化算法研究[J].小型微型计算机系统,2018,39(4):732-737. 被引量：6
4孙龙杰,俞凯君.智慧图书馆设备故障规避的HFACS等级相关分析[J].软件,2019,40(9):62-66. 被引量：1
5王东升,李悦琪,李春泽.HFACS在交通领域应用研究综述[J].青岛远洋船员职业学院学报,2019,40(3):1-6. 被引量：4
6崔铁军,李莎莎.智能科学带来的矿业生产系统变革——智能矿业生产系统[J].兰州文理学院学报（自然科学版）,2019,33(5):51-55. 被引量：1
7李星,谭麟,高凌云,尚玉,潘哲.系统安全领域人因错误理论研究进展[J].中国电子科学研究院学报,2020,15(7):612-619. 被引量：2
8郭云东,孙有朝.基于FIS-CREAM方法的人为差错风险评估[J].海军航空工程学院学报,2020,35(4):303-309. 被引量：1
9徐德宇,王天瑜,梁跃强,屈丽娜,李鹏.基于HFACS的化工企业火灾爆炸事故人因分析[J].中国安全生产科学技术,2020,16(11):66-70. 被引量：18
10黎文娟,周忠眉.基于大数据与人工智能的关联分类改进算法[J].广东通信技术,2022,42(1):63-65. 被引量：2

1李如强,陈进,伍星.基于模糊C均值聚类和粗糙集理论的旋转机械故障诊断[J].信息与控制,2004,33(3):355-360. 被引量：7
2吴永梁,陈炼.基于改善度计算的有效关联规则[J].计算机工程,2003,29(13):98-100. 被引量：5
3孙文俊,潘明暘,叶强.基于T统计量的一种改进关联规则挖掘方法[J].计算机应用研究,2011,28(6):2073-2077. 被引量：6
4伊卫国,卫金茂,王名扬.挖掘有效的关联规则[J].计算机工程与科学,2005,27(7):91-94. 被引量：9
5周翠红.正负关联规则挖掘的研究[J].中国新技术新产品,2009(23):43-44.
6张卫国,高贤强,武晓宏.基于支持度-置信度框架的负关联规则研究[J].微电子学与计算机,2009,26(4):102-104. 被引量：4
7路艳丽,雷英杰,李兆渊.一种D-S证据推理的BPA获取方法[J].空军工程大学学报（自然科学版）,2007,8(3):39-42. 被引量：7
8黄再祥,周忠眉,何田中,郑艺峰.改进的多类不平衡数据关联分类算法[J].模式识别与人工智能,2015,28(10):922-929. 被引量：11
9陈晓云,胡运发.规则加权的文本关联分类[J].中文信息学报,2005,19(4):52-59. 被引量：4
10王卫平,周忠眉,郑艺峰.基于支持度和增比率的改进关联分类算法[J].计算机工程与科学,2016,38(2):370-375. 被引量：4

计算机科学

2014年第2期

浏览历史

内容加载中请稍等...

基于相关规则的不平衡数据的关联分类被引量：3

参考文献13

同被引文献6

引证文献3

二级引证文献27

相关作者

相关机构

相关主题

浏览历史

基于相关规则的不平衡数据的关联分类 被引量：3

参考文献13

同被引文献6

引证文献3

二级引证文献27

相关作者

相关机构

相关主题

浏览历史

基于相关规则的不平衡数据的关联分类被引量：3