运用Chi2算法的一种变形简化决策树归纳的实例表示空间被引量：2

Using a Variation of Chi2 to Simplify the Case Representation Space for Decision Tree Induction

下载PDF

导出

摘要决策树归纳的两个重要阶段是数据表示空间的简化和决策树的生成。在将训练集的不一致率控制在某一阈值的前提下,减少实例的属性个数和各个属性的取值个数保证了决策树方法的可行性和有效性。本文在Chi2算法的基础上运用它的一种变形进行属性取值离散化和属性筛选,然后运用算术运算符合并取值个数为2或3的相邻属性。在此基础上生成的决策树具有良好的准确性。实验数据采用的是一个保险公司捐献的数据集。 The simplification of training dataset representation and the generation of decision trees are two critical phases in decision tree induction. On the condition of bringing the inconsistency rate under a threshold, reducing the attribute number and the different value number of each attribute assures the feasibility and effectiveness of the decision tree learning method. In this paper, a variation of the Chi2 algorithm is proposed to perform attribute discretization and selection. The decision tree generated in the further steps offers a good classification accuracy. Our experiment is based on a data set donated by an insurance company from the real world.

作者徐计张桂芸

机构地区天津师范大学计算机与信息工程学院

出处《计算机工程与科学》 CSCD 2007年第10期47-49,共3页 Computer Engineering & Science

基金天津市自然科学基金资助项目(033610811) 天津市"十五"教育科学规划重点课题(YSO17)

关键词决策树 Chi2的变形离散化筛选 decision tree variation of Chi2 discretization selection

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献8

1Liu Huan, Setiono R. Chi2 : Feature Selection and Discretization of Numerie Attributes[A]. Proe of the IEEE 7th Int'l Conf on Tools with Artifieial Intelligenee[C]. 1995.
2Tay F E H. A. Modified Chi2 Algorithm for Diseretization [J]. IEEE Trans on Knowledge and Data Engineering, 2002, 14 (3):666-670.
3Breslow L A,Aha D W. Simplifying Decision Trees:A Survey [J]. Knowledge Engineering Review,1997,12(1): 1-40.
4Witten L H，Frank E.数据挖掘——实用机器学习技术(英文版，第二版)[M]．北京：机械工业出版社．2005．
5Bloedom E,Michalski R S. The AQ17-DCI System for DataDriven Constructive Induction and Its Application to the Analysls of World Economics[A]. Proc of the 9th Int'l Syrup on Methodologies for Intelligent Systems[C]. 1996,
6孙细明,张晓鹏.基于信息熵的决策树算法实现[J].计算机与数字工程,2005,33(11):94-95. 被引量：11
7仇春光,刘玉树.自动生成决策树的通用算法模板[J].北京理工大学学报,1999,19(3):338-342. 被引量：5
8李艾华,屈梁生.改进的决策树生成算法及条件决策表的创建[J].西安交通大学学报,1999,33(10):43-47. 被引量：2

二级参考文献4

1屈梁生，机械故障诊断学，1986年，156页
2李德毅.数据挖掘研究现状[EB/OL].http://seekjob.myrioce.com/dm-3.htm,2000-11-16.
3范盟孟小峰译 JiaweiHan MichelineKamber著.数据挖掘概念与技术[M].北京:机械工业出版社,2001..
4俞文彬,谢康林,张忠能.基于属性分类的数据挖掘方法[J].小型微型计算机系统,2000,21(3):305-308. 被引量：14

共引文献15

1李占梅.素质教育呼唤高素质教师[J].中共太原市委党校学报,2002(3):47-48.
2王名扬,卫金茂,伊卫国.基于粗集理论的新决策树剪枝方法[J].东北师大学报（自然科学版）,2005,37(3):28-32. 被引量：5
3张志刚,李立志.基于度量的决策树[J].计算机与数字工程,2006,34(4):46-47.
4杨为民,周云.基于信息熵和经营耗散理论下的品牌自传播计量框架[J].商业研究,2006(18):21-23. 被引量：1
5屈志毅,周海波.决策树算法的一种改进算法[J].计算机应用,2008,28(B06):141-143. 被引量：19
6屈志毅,周海波,马晓军,陈媛媛.决策树在XML数据库挖掘中的研究[J].计算机工程与设计,2008,29(14):3663-3665. 被引量：2
7白秀琴,袁成清,王志芳.基于监测实例的摩擦学系统状态辨识的知识获取[J].润滑与密封,2010,35(11):14-17. 被引量：1
8唐淑君.保险业客户流失预测模型的建立与实现[J].软件导刊,2011,10(1):62-64.
9慕红宇,熊金明.基于数据仓库的数据挖掘技术[J].绍兴文理学院学报（自然科学版）,2002,22(1):45-49. 被引量：2
10龚斌,李国和,吴卫江,洪云峰.基于决策树的消费行为分析[J].信息技术,2016,40(4):14-17. 被引量：1

同被引文献10

1Heckerman D,Geiger D, Chickering D M. Learning Bayesian Networks: The Combination of Knowledge and Statistical Data[R]. Technical Report MSR TR-94 09, Microsoft Research, 1994.
2Hekerman D. A Tutorial on I.earning with Bayesian Network[R]. Technical Report MSR-tr-95 06, Microsoft Research, 1996.
3Cheng Jie, Bell D A, Liu Weiru. l.earning Belief Networks from Data: An Information Theory Based Approach [C]// Proc of the 6th Int'l Conf on Information and Knowledge Management, 1997 : 325-331.
4Cheng J, Bell D A, Liu W. An Algorithm for Bayesian Belief Network Construction from Data[C]//Proc of AI & STAT' 97,1997 : 83-90.
5Williams C K I, Feng X. Combining Neural Networks and Belief Networks for Image Segmentation[C]//Proc of IEEE Signal Proc Society Workshop on Neural Networks for Signal Processing, 1998.
6Argamon-Engelson S,Dagan I. Committee-Based Sample Selection for Prohabilistic Classifiers[J]. Journal of Artificial Intelligence Research, 1999,11: 335- 460.
7Blum A,Mitchell T. Comhining Labeled and Unlabeled Data with Co-Training[C]//Proc of the 11th Annual Conf on Computational Learning Theory, 1998: 92-100.
8Amari S. Mathematical Foundations of Neurocomputing[J]. Proceedings of the IEEE,1990,78(9) : 1443-1463.
9Cooper G. Computational Complexity of Probabilistic Inference Using Bayesian Belief Networks(Research note)[J]. Artificial Intelligence, 1990,42 (2,3) : 393-405.
10Chatteriee S, Hadi A S, Price B. Regression Analysis By Example (Third Edition) [M]. John Wiley &. Sons, Inc, 2000.

引证文献2

1徐计,张桂芸.基于贝叶斯网络的一种牛奶产量预测研究[J].计算机工程与科学,2008,30(10):15-18. 被引量：2
2周登极,郝佳瑞,黄大文.机器学习模型可解释性研究及其在PHM中应用现状综述[J].系统工程,2022,40(6):1-10. 被引量：3

二级引证文献5

1周玉,崔高颖,易永仙,陈霄,石坤,许高杰.基于贝叶斯网络的短期负荷预测方法[J].电气应用,2015,0(S2):130-134. 被引量：2
2王尔东.基于多元线性回归的月度牛奶产量预测[J].电子世界,2018,0(17):38-39. 被引量：1
3沈君贤,马天池,宋狄,许飞云.基于可解释选择性集成框架的离心风机叶片裂纹损伤检测[J].机械工程学报,2024,60(12):183-193.
4李可,魏琦,武志高,樊兴乐,石慧.一种基于生成对抗域的长短期记忆网络系统剩余寿命预测方法[J].系统工程,2024,42(5):131-141.
5靳庆文,李美静.基于可解释性结果的数据故事化关键技术分析、融合与应用[J].情报杂志,2024,43(11):129-138.

1巩固,吕俊怀,黄永青,郝国生.有效改进C5.0算法的方法[J].计算机工程与设计,2009,30(22):5197-5199. 被引量：6
2刘磊,闫德勤,桑雨.连续属性离散化的Bayesian-Chi2算法[J].计算机工程与应用,2008,44(18):39-40. 被引量：1
3梁思强.乐视液晶彩电软件升级操作方法[J].家电维修,2016,0(6):62-62.
4闫德勤,张丽平.连续属性离散化的Integral Chi2算法[J].小型微型计算机系统,2008,29(4):691-693. 被引量：2
5巩固,黄永青,郝国生.决策树算法的优化研究[J].计算机工程与应用,2010,46(13):139-141. 被引量：7
6桑雨,闫德勤,刘磊,梁宏霞.连续属性离散化的Imp-Chi2算法[J].计算机工程,2008,34(17):39-41. 被引量：2
7王思义.趣谈C语言和JAVA中的＋＋和--[J].中国科技博览,2009(20):20-20.
8网御神州和北京邮电大学成立信息安全联合实验室[J].计算机安全,2007(8):92-92.
9惠普基金会将向智利捐赠50万美元[J].印刷工业,2010(3):69-69.
10Tomasz Kosicki.Graph representation of n-dimensional space[J].Advances in Manufacturing,2014,2(1):54-60.

计算机工程与科学

2007年第10期

浏览历史

内容加载中请稍等...

运用Chi2算法的一种变形简化决策树归纳的实例表示空间被引量：2

参考文献8

二级参考文献4

共引文献15

同被引文献10

引证文献2

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

运用Chi2算法的一种变形简化决策树归纳的实例表示空间 被引量：2

参考文献8

二级参考文献4

共引文献15

同被引文献10

引证文献2

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

运用Chi2算法的一种变形简化决策树归纳的实例表示空间被引量：2