摘要
连续属性离散化在机器学习和数据挖掘领域中有着重要的作用.连续属性离散化方法是否合理决定着对信息的表达和提取的准确性.Chi2算法基于统计学理论方法,对连续属性离散化研究产生着重要影响.在对Chi2及相关算法中统计量χ2应用意义讨论的基础上,提出了一种新的(IntegralChi2)算法,该算法基于概率统计理论把统计量χ2与分位点χ2α间对应的积分(概率)作为区间合并的依据,能够更合理更准确地对连续属性进行离散化.实验结果证明了算法的有效性.
Discretization is an effective technique to deal with continuous attributes for machine learning and data mining. Reasonability of a discretization process determines the accuracy of expression and extraction for information. This paper discusses Chi2 algorithm, and proposes a new Integral Chi2 algorithm for discretization of real value attributes. The experimental results have proven the validity of the new algorithm.
出处
《小型微型计算机系统》
CSCD
北大核心
2008年第4期691-693,共3页
Journal of Chinese Computer Systems
基金
国家自然科学基金项目(60372071)资助
辽宁省教育厅高等学校科学研究基金项目(2004C031)资助
辽宁师范大学校基金资助
关键词
连续属性离散化
CHI2算法
数据挖掘
discretization of real value attributes
Chi2 algorithm
data mining