基于动态聚类的Rough集快速离散化算法被引量：1

Quick Discretization Algorithm for Rough Set Based on Dynamic Clustering

下载PDF

导出

摘要为处理大数据量决策表的离散化问题,设计高效的离散化算法是必要的.根据候选断点在单属性上重要性值的分布规律,提出了"先动态聚类,再选择候选断点"的思路和基于Rough集的快速离散化算法.首先,根据断点的重要性在单个特征上的分布规律,对断点进行快速动态聚类,从而有效降低候选断点的数目;然后,在聚类结果的基础上,采用启发式方法快速选择并得到最终的断点集,从而实现决策表的离散化.试验结果表明:通过动态聚类,多数数据集候选断点的数目能减少80%以上,大大提高了后续断点选择的效率;用提出的算法处理7个UCI数据集Iris、Wine、Glass、Ecoli、Breast_w、Pima和Letter,其正确识别率分别约为92.0%、92.1%、69.3%、65.7%、95.3%、67.1%和76.5%. In order to process the discretization of a decision table with large quantity objects,it is necessary to develop a high efficient discretization algorithm.The distribution of the importance values of candidate cuts on single attribute in a decision table was analyzed,and based on the distribution,a two-step solution procedure and a high efficient discretizaiton algorithm based on the rough set theory were proposed.Firstly,the candidate cuts are dynamically clustered in the light of their importance,so the number of the candidate cuts will decrease.Secondly,the final result cuts will be selected quickly from the clustered cuts using the heuristic method,as a result,the discretizaion of the decision table can be implemented by the final result cuts.The experiment results show that after dynamic clustering,the number of candidate cuts in most of data sets can be decreased by more than 80% to raise the efficiency of next cut selection greatly.To seven UCI data sets,Iris,Wine,Glass,Ecoli,Breast_w,Pima and Letter,in the experiments,their recognition rates are about 92.0%,92.1%,69.3%,65.7%,95.3%,67.1% and 76.5% respectively using the proposed algorithm.

作者胡峰王国胤代劲

机构地区西南交通大学信息科学与技术学院重庆邮电大学计算机科学与技术研究所

出处《西南交通大学学报》 EI CSCD 北大核心 2010年第6期977-983,共7页 Journal of Southwest Jiaotong University

基金国家自然科学基金资助项目(60573068 60773113) 重庆市重点自然科学基金资助项目(2008BA2017) 重庆市杰出青年基金资助项目(2008BA2041) 重庆市教育委员会科学技术研究项目(KJ090512)

关键词粗集决策表离散化聚类 rough set decision table discretization clustering

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献8

1侯利娟,王国胤,聂能,吴渝.粗糙集理论中的离散化问题[J].计算机科学,2000,27(12):89-94. 被引量：104
2胡峰,王国胤.属性序下的快速约简算法[J].计算机学报,2007,30(8):1429-1435. 被引量：49
3胡峰,王国胤.二维表快速排序的复杂度分析[J].计算机学报,2007,30(6):963-968. 被引量：17
4王国胤,于洪,杨大春.基于条件信息熵的决策表约简[J].计算机学报,2002,25(7):759-766. 被引量：594
5冯林,王国胤.用于数据分析的变精度模糊粗糙模型[J].西南交通大学学报,2008,43(5):582-587. 被引量：11
6何亚群,胡寿松.粗糙集中连续属性离散化的一种新方法[J].南京航空航天大学学报,2003,35(2):212-215. 被引量：21
7谢宏,程浩忠,牛东晓.基于信息熵的粗糙集连续属性离散化算法[J].计算机学报,2005,28(9):1570-1574. 被引量：134
8张明,韩松臣.基于变精度粗集的动态扇区数规划[J].西南交通大学学报,2009,44(3):410-414. 被引量：4

二级参考文献60

1Su-QingHan JueWang.Reduct and Attribute Order[J].Journal of Computer Science & Technology,2004,19(4):429-449. 被引量：24
2王熙照,赵素云,王静红.基于Rough集理论的模糊值属性信息表简化方法[J].计算机研究与发展,2004,41(11):1974-1981. 被引量：14
3李订芳,李贵斌,章文.基于U/{a}划分的最小约简构造[J].武汉大学学报（理学版）,2005,51(3):269-272. 被引量：7
4黄金杰,武俊峰,蔡云泽.模糊粗糙数据模型:一种数据分析的新方法[J].计算机学报,2005,28(11):1866-1874. 被引量：7
5张明,韩松臣.依据管制员工作负荷的扇区优化方法[J].交通运输工程学报,2005,5(4):86-89. 被引量：11
6徐章艳,刘作鹏,杨炳儒,宋威.一个复杂度为max（O（｜C｜｜U｜），O（｜C^2｜U／C｜））的快速属性约简算法[J].计算机学报,2006,29(3):391-399. 被引量：234
7裴成功,韩松臣,刘星.管制员工作负荷评估的回归分析法[J].南京航空航天大学学报,2007,39(1):107-112. 被引量：27
8胡峰,王国胤.二维表快速排序的复杂度分析[J].计算机学报,2007,30(6):963-968. 被引量：17
9曾黄麟.粗集理论及其应用－关于数据推理的新方法（修订版）[M].重庆:重庆大学出版社,1998.83-87.
10王国胤.Rough集理论和知识获取[M].西安:西安交通大学出版社,2001..

共引文献848

1景运革,景罗希,王宝丽,程妮.属性值和属性变化的增量属性约简算法[J].山东大学学报（理学版）,2020,55(1):62-68. 被引量：6
2王思.应用属性约简算法实现运动员伤病影响因素评估的研究[J].电子测量技术,2020,43(11):10-15.
3唐鹏飞.基于近似条件熵的集值决策表属性约简算法[J].智能计算机与应用,2021,11(10):20-25. 被引量：2
4刘城霞,朱敏玲,刘玮琪.基于互信息的属性约简算法研究与实现[J].北京信息科技大学学报（自然科学版）,2020,35(1):38-42. 被引量：7
5吴礼旺,卓李萍.5G大数据时代下智能识别误码行为隐患的研究[J].广西通信技术,2020(4):30-33.
6唐洪浪.基于决策强度的一种属性约简算法[J].湛江师范学院学报,2007,28(6):65-69.
7宋岚,黄兆华,王洪.基于Rough熵的决策表约简算法研究[J].华东交通大学学报,2006,23(4):93-95. 被引量：1
8高赟,侯媛彬.改进贪心算法的完善与应用[J].仪器仪表学报,2004,25(z1):727-729. 被引量：3
9谢竹诚,周永权.一种基于AFSA与RST分类规则挖掘算法[J].微电子学与计算机,2009,26(3):182-184. 被引量：2
10汤周文,叶东毅.基于层次聚类的差异化属性约简算法[J].计算机应用,2009,29(2):419-420. 被引量：1

同被引文献15

1HAN liawei, KAMBER M. Data mining concepts and tech- niquesEM:. Amsterdam, the Nethetands: Elsevier, 2001.
2MAHANTA P, AHMEDHA, KALITA J, et al. Discretiza- tion in gene expression data analysis: a selected survey[C:// Proceedings of the 2nd International Conference on Computa- tional Science, Engineering and Information Technology. New Work, N.Y. ,USA:ACM,2012:69-75.
3CARCIA S, LUENGO J, SAEZ J A, et al. A survey of dis- cretization techniques:taxonomy and empirical analysis in su- pervised learning[l]. Knowledge and Data Engineering, 2013, 25(4) : 734-750.
4NGUYEN S H. Discretization of real value attributes: a boole- an reasoning approachI-D]. Warsaw,Poland: Warsaw Universi- ty,1997.
5SINGH G K, MINZ S. Discretization using clustering and ro- ugh set theoryEC://Proceedings of the International Confer- ence on Computing: Theory and Applications. Washington, D. C. ,USA:IEEE,2007:330-336.
6XU Yulong, WANG Xiaopeng, XIAO Dawei. A two step pa- rallel discretization algorithm based on dynamic clustering [C://Proceedings of 2012 International Conference on Com- puter Science and Electronics Engineering. Washington, D. C. ,USA:IEEE,2012 : 192-196.
7ESTER M,KRIEGEL H P, SANDER J, eta|. A density- based algorithm for discovering clusters in large spatial Data- base with noise[C]//Proceedings of the 2nd International Conference on Knowledge Discovery Databases and Data Mining. Reston, Va. , USA:AAAI Press,1996:226-231.
8刘民.基于数据的生产过程调度方法研究综述[J].自动化学报,2009,35(6):785-806. 被引量：38
9熊忠阳,吴林敏,张玉芳.针对非均匀数据集的DBSCAN过滤式改进算法[J].计算机应用研究,2009,26(10):3721-3723. 被引量：11
10张继福,李鑫,杨海峰.基于模糊C均值聚类的天文光谱特征线软离散化[J].光谱学与光谱分析,2012,32(5):1435-1438. 被引量：5

引证文献1

1焦磊,刘晓军,刘庭煜,倪中华.一种面向生产调度规则挖掘的数据离散化方法[J].计算机集成制造系统,2016,22(1):257-264. 被引量：5

二级引证文献5

1刘晨兴,陈海洋,樊甜甜,赵程程,董显明.影响交通路径规划因素的模糊化数据处理方法[J].信息通信,2018,31(9):20-23.
2刘颖超,胡小锋,刘梦湘.多工序下刀具磨损的不完备信息系统数据挖掘[J].计算机集成制造系统,2019,25(5):1055-1061. 被引量：10
3李世昕,高红雨,苏航,李小青,崔素萍.基于关联算法的水泥熟料生产数据挖掘与分析[J].中国水泥,2020(2):73-79. 被引量：1
4汤洪涛,费永辉,陈青丰,詹燕,鲁建厦,李晋青.基于工业大数据的柔性作业车间动态调度[J].计算机集成制造系统,2020,26(9):2497-2510. 被引量：18
5王艳红,赵也践,刘文鑫.数据挖掘算法在作业车间调度问题中的应用[J].计算机集成制造系统,2024,30(2):520-536. 被引量：1

1夏振华,史小宏.基于移动Agent的P2P资源发现模型PIMA[J].现代计算机,2010,16(4):146-147.
2王石磊,陆慧娟,关伟,余翠.一种粒子群RELM的基因表达数据分类方法[J].中国计量学院学报,2015,26(2):221-226. 被引量：2
3PIMA提供具高度用户友好性的安防报警系统[J].A&S（安全&自动化）,2004(70):124-124.
4姜彬,宋智玲,张云红.粗糙集理论中连续属性离散化的一种新方法[J].实验室研究与探索,2008,27(8):28-31. 被引量：1
5周凡程,吴孟达,王丹.基于Shadowed Sets的连续属性离散化[J].模糊系统与数学,2012,26(2):120-128. 被引量：1
6赵军,王国胤,吴中福,唐宏,李华.基于粗集理论的数据离散化方法[J].小型微型计算机系统,2004,25(1):60-64. 被引量：34
7瞿英,李萍,吴祈宗,贾建.基于粗糙集的贝叶斯网络连续变量离散化算法[J].计算机应用,2009,29(9):2491-2493.
8潘巍,李晋川,王阳生,杨宏戟.基于决策的剥离式连续属性离散化算法[J].计算机科学,2007,34(8):208-210. 被引量：5
9Ryszard S. Choras.An Image Analysis of Breast Thermograms[J].Computer Technology and Application,2015,6(2):64-69.
10秦川,黄欢,施化吉,李星毅.基于区分矩阵的数据离散化算法[J].计算机工程与应用,2008,44(35):148-150. 被引量：3

西南交通大学学报

2010年第6期

浏览历史

内容加载中请稍等...

基于动态聚类的Rough集快速离散化算法被引量：1

参考文献8

二级参考文献60

共引文献848

同被引文献15

引证文献1

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

基于动态聚类的Rough集快速离散化算法 被引量：1

参考文献8

二级参考文献60

共引文献848

同被引文献15

引证文献1

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

基于动态聚类的Rough集快速离散化算法被引量：1