数据挖掘中改进的C4.5决策树分类算法被引量：25

Improved C4.5 Decision Tree Classification Algorithm in Data Mining

下载PDF

导出

摘要针对传统C4.5决策树分类算法需要进行多次扫描,导致运行效率低的缺陷,提出一种新的改进C4.5决策树分类算法.通过优化信息增益推导算法中相关的对数运算,以减少决策树分类算法的运行时间;将传统算法中连续属性的简单分裂属性改进为最优划分点分裂处理,以提高算法效率.实验结果表明,改进的C4.5决策树分类算法相比传统的C4.5决策树分类算法极大提高了执行效率,减小了需求空间. Aiming at the problem that the algorithm for traditional C4.5 decision tree classification algorithm needed to be scanned several times,resulting in defects of running low efficiency,the author proposed a new improved C4.5 decision tree classification algorithm by optimizing the logarithmic operation related information gain derivation algorithm in order to reduce the running time of the decision tree classification algorithm.And the simple split attribute of the continuous attributes in the traditional algorithm was improved to the optimal partition point splitting processing in order to improve the efficiency of the algorithm.Experimental results show that compared with the traditional C4.5 decision tree classification algorithm,the improved C4.5 decision tree classification algorithm greatly improves the execution efficiency and reduces the demand space.

作者王文霞 WANG Wenxia(Department of Computer Science and Technology, Yuncheng University, Yuncheng 044000, Shanxi Province, Chin)

机构地区运城学院计算机科学与技术系

出处《吉林大学学报（理学版）》 CAS CSCD 北大核心 2017年第5期1274-1277,共4页 Journal of Jilin University:Science Edition

基金国家自然科学基金(批准号:11241005) 山西省运城学院131人才专项基金(批准号:JG201634)

关键词数据挖掘 C4.5决策树分类算法判别能力度量连续属性 data mining C4.5 decision tree classification algorithm discriminative ability measure continuous attribute

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1魏晓辉,李聪,李洪亮,李翔,刘圆圆,李丽娜,庄园.支持大规模流数据处理的在线MapReduce数据传输机制[J].吉林大学学报（理学版）,2015,53(2):273-279. 被引量：4
2刘杰,刘大有,金弟.一种基于模糊C均值的新分类算法[J].吉林大学学报（理学版）,2009,47(4):795-799. 被引量：4

二级参考文献18

1Lee K H. Lee YJ. Choi H. et al. Parallel Data Processing with MapReduce , A Survey[J]. ACM SIGMOD Record. 2011. 40(4): 11-20.
2Condie T. Conway N. Alvaro P. et al. MapReduce Online[C]IIProceedings of the 7th USENIX Symposium on Networked Systems Design and Implementation. Berkeley: USENIX. 2010: 21.
3DeanJ, Ghemawat S. Map'Reduce , Simplified Data Processingon Large Clusters[J]. Communications of the ACM, 2008, 510): 107-113.
4Hadoop. Apache Hadoop[EB/OL]. 2014-12-01. http- z /hadoop. apache. org/.
5Luckham D. The Power of Events: An Introduction to Complex Event Processing in Distributed Enterprise Systems[M]. Boston: Addison-Wesley Longman Publishing Co, Inc, 2001.
6Bhatotia p, Wieder A, Rodrigues R, et al. Incoop . MapReduce for Incremental Computations[C/ OLJ/ / Proceedings of the 2nd ACM Symposium on Cloud Computing. New York: ACM, 2011: doi , 10.1145/2038916. 2038923.
7Yan C, Yang X, Yu Z, et al. Incrnr , Incremental Data Processing Based on MapReduce[CJl /2012 IEEE 5th International Conference on Cloud Computing (CLOUD). Piscataway, NJ: IEEE, 2012: 534-541.
8BU Yingyi , Howe B, Balazinska M, et al. Hal.oop . Efficient Iterative Data Processing on Large Clusters[J]. Proceedings of VLDB Endowment, 2010. 30/2): 285-296.
9EkanayakeJ. LI Hui , ZHANG Bingjing , et al. Twister: A Runtime for Iterative MapReduce[C]/ /Proceedings of the 19th ACM International Symposium on High Performance Distributed Computing (HPDC'10). New York: ACM, 2010: 818-820.
10Zaharia M, Chowdhury M. Franklin MJ, et al. Spark: Cluster Computing with Working Sets[CJ/ /Proceedings of the 2nd USENIX Conference of Hot Topics in Cloud Computing. Berkeley: USENIX, 2010: 10-16.

共引文献6

1张萍,王剑钢.结合空间信息的FCM聚类噪声图像分割方法[J].计算机与现代化,2012(3):52-54. 被引量：3
2姜占才,杨林.语音模糊特征提取及码本训练算法[J].吉林大学学报（信息科学版）,2012,30(3):279-284. 被引量：5
3浦雅雯,刘万军,姜文涛.基于PSO-IFCM的遮挡车牌车辆识别[J].计算机工程,2012,38(14):157-160. 被引量：6
4谭亮,周静.基于Spark Streaming的实时交通数据处理平台[J].计算机系统应用,2018,27(10):133-139. 被引量：13
5范大鹏,张凤斌.一种基于并行免疫网络的大数据分类算法[J].江苏大学学报（自然科学版）,2018,39(5):581-585. 被引量：3
6阿喜达.基于JVM的Netty网络通信性能测评[J].信息通信,2015,28(11):202-203. 被引量：1

同被引文献237

1刘昆,胡美慧,肖万幸,曹进平.基于区块链技术的分布式云存储在电力系统的应用探究[J].计算机产品与流通,2020,9(8):80-80. 被引量：5
2朱丹,吴兹古力.基于机器视觉的农业机械图像识别系统分析[J].农机化研究,2020,42(10):28-31. 被引量：13
3秦国防,秦明辉.视觉捕捉拾取机器人在水果分类系统中的应用[J].农机化研究,2020,42(9):212-216. 被引量：5
4李奇,陈维荣,刘述奎,宋文胜,杨顺风.燃料电池混合动力车辆多能源管理策略[J].电工技术学报,2011,26(S1):303-308. 被引量：31
5舒昝,张晓冉.面向异构类型的大数据查询优化研究[J].自动化与仪器仪表,2016(4):199-200. 被引量：4
6栾丽华,吉根林.决策树分类技术研究[J].计算机工程,2004,30(9):94-96. 被引量：115
7王志国,马一太,卢苇.不确定度分析原理在锅炉热效率测算中的应用[J].中国电机工程学报,2005,25(3):125-129. 被引量：25
8刘艳锋.肯德尔和谐系数的实际运用[J].河南机电高等专科学校学报,2006,14(1):41-42. 被引量：20
9亓常松,孙吉贵,于海鸿.基于离散度的决策树构造方法[J].控制与决策,2008(1):51-55. 被引量：5
10李会,胡笑梅.决策树中ID3算法与C4.5算法分析与比较[J].水电能源科学,2008,26(2):129-132. 被引量：20

引证文献25

1张雪梅.基于大数据的液压支架电液控制系统故障诊断[J].工矿自动化,2018,44(12):34-38. 被引量：28
2欧家祥,曹湘,张俊玮,丁超.基于混合神经网络的电力客户细分研究[J].计算机与数字工程,2019,47(3):689-695. 被引量：4
3张小奇.基于决策树算法的教学管理数据分析[J].青岛大学学报（自然科学版）,2019,32(2):86-94. 被引量：3
4安葳鹏,尚家泽.决策树C4.5算法的改进与分析[J].计算机工程与应用,2019,55(12):169-173. 被引量：24
5倪建云,解树枝,李子豪.改进型决策树在加热炉热效率评估中的应用研究[J].化工自动化及仪表,2019,46(6):474-478. 被引量：1
6孙莉.基于C4.5算法的大学阳光体育系统设计与实现[J].自动化技术与应用,2019,38(7):28-32. 被引量：2
7李振兴,韩丽娜,史楠.基于决策树算法的电影票房预测研究[J].智能计算机与应用,2019,9(4):132-135. 被引量：5
8李俊杰,李娟莉,王学文.K＿C4.5在提升机制动系统故障诊断中的应用研究[J].矿业研究与开发,2019,39(10):117-121. 被引量：1
9杨蕗菡.非合作结构化深网重叠数据特征自动挖掘仿真[J].计算机仿真,2019,36(11):251-254. 被引量：1
10徐燕.混合动力电动汽车中利用决策树CART算法的能源管理方案[J].计算机测量与控制,2020,28(2):229-234. 被引量：2

二级引证文献130

1周晓艳,谢振安.基于改进决策树算法的大学生心理健康智能测评方法研究[J].山西能源学院学报,2024,37(3):33-35.
2王若明.浅谈代价敏感学习[J].网络安全技术与应用,2020(3):52-54.
3辛亮.液压支架电液控制系统故障分析及维修技术的应用[J].内蒙古石油化工,2021,47(10):78-81. 被引量：4
4孙靖然.服装设计中情感表达方式研究与探析[J].化纤与纺织技术,2020,49(9):68-69. 被引量：3
5杨坤.液压支架电液控制器设计研究[J].自动化应用,2019(2):43-44. 被引量：1
6史洪泉.液压支架电液控制系统故障快速诊断技术[J].自动化应用,2019(4):33-34. 被引量：6
7李海明.液压支架泄漏故障诊断机理及应用研究[J].机械管理开发,2019,34(6):120-121.
8张仁生.液压支架电液控制系统故障诊断技术探讨[J].今日自动化,2019,0(4):123-124.
9刘丰军.基于大数据技术的煤矿应急救援辅助决策系统的研究[J].山东煤炭科技,2019,0(10):156-157. 被引量：6
10李俊杰,李娟莉,王学文.K＿C4.5在提升机制动系统故障诊断中的应用研究[J].矿业研究与开发,2019,39(10):117-121. 被引量：1

1张佳华,姚宜斌,曹娜.基于决策树对有无降水进行预测[J].测绘地理信息,2017,42(5):107-109. 被引量：9
2万子玮,马慧.基于决策树分类算法的联盟广告推送应用研究[J].现代商业,2017(22):86-87.
3张翕茜,李凤莲,张雪英,田玉楚.基于代价敏感混合分裂策略的多决策树算法[J].电子技术应用,2017,43(10):128-131. 被引量：6
4张荣光,胡晓辉,宗永胜.基于改进离散粒子群优化的连续属性离散化[J].计算机工程与应用,2017,53(18):108-114. 被引量：8
5宋三华.无线传感网中基于信息增益最大化的泛在数据收集算法[J].中国电子科学研究院学报,2017,12(4):371-377.
6曹峰,唐超,张婧.一种结合二元蚁群和粗糙集的连续属性离散化算法[J].计算机科学,2017,44(9):222-226. 被引量：2
7戚犇,王梦迪.基于信息增益的贝叶斯态势要素提取[J].信息网络安全,2017(9):54-57. 被引量：5
8可安装在最小需求空间里的预设定型高级机床设备[J].现代制造,2017,0(29):138-138.
9林昭涣.浅谈传统空间及手法在何香凝美术馆中的现代表达[J].建材与装饰,2017,13(35):104-104.
10徐灏,万义平.基于工程背景的审计专业人才培养模式研究及实践——以南昌工程学院为例[J].西部财会,2017(9):69-71. 被引量：2

吉林大学学报（理学版）

2017年第5期

浏览历史

内容加载中请稍等...

数据挖掘中改进的C4.5决策树分类算法被引量：25

参考文献2

二级参考文献18

共引文献6

同被引文献237

引证文献25

二级引证文献130

相关作者

相关机构

相关主题

浏览历史

数据挖掘中改进的C4.5决策树分类算法 被引量：25

参考文献2

二级参考文献18

共引文献6

同被引文献237

引证文献25

二级引证文献130

相关作者

相关机构

相关主题

浏览历史

数据挖掘中改进的C4.5决策树分类算法被引量：25