基于朴素贝叶斯的EM缺失数据填充算法被引量：7

EM algorithm to implement missing values based on Nave Bayesian

下载PDF

导出

摘要实际应用中大量的不完整的数据集,造成了数据中信息的丢失和分析的不方便,所以对缺失数据的处理已经成为目前分类领域研究的热点。由于EM方法随机选取初始代表簇中心会导致聚类不稳定,本文使用朴素贝叶斯算法的分类结果作为EM算法的初始使用范围,然后按E步M步反复求精,利用得到的最大化值填充缺失数据。实验结果表明,本文的算法加强了聚类的稳定性,具有更好的数据填充效果。 Dataset with missing values is quite common in real applications. It is a big problem of data pretreatment, and handling missing values has become a research hot issue. EM chooses the center of cluster randomly leading to cluster irregularly, so this paper uses the result of Na lye Bayesian as the initial range of EM, then refines the value reduplicative, finally gets the excepted maximize value. The research result suggests that this algorithm improved the level of cluster and had a better data makeup result.

作者邹薇王会进

机构地区暨南大学信息科学技术学院

出处《微型机与应用》 2011年第16期75-77,81,共4页 Microcomputer & Its Applications

关键词数据填充 EM算法朴素贝叶斯算法 missing values implement EM algorithm Naive Bayesian algorithm

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献10

1GRZYMALA-BUSSE J W. Rough set approach to incomplete data. In:LNAI 3070,2004:50-55.
2[加]HanJiawei,KAMBERM.数据挖掘概念与设计[M].北京:机械工业出版社,2008.
3LAKSHMINARAYAN K,(1999).hnputation of missing data in industrial databases[J],Applied Intelligence 11:259-275.
4HUANG X L.A pseudo-nearest-neighbor approach for missing data recovery on Gaussian random data sets[J]. Pattern Recognition Letters,2002(23): 1613-1622.
5GRZYMALA-BUSSE J W,FU M,(2000).A comparison of several approaches to missing attribute values in data mining[C].In:Proc of the 2nd Int'Conf on Rough Sets and Current Trends in Computing. Berlin: Springer- Verlag, 2000 : 378-385.
6ZHANG S C,QIN Y S,ZHU X F,et al.Optimized parameters for missing data imputation.PRICAI06,2006:1010-1016.
7宫义山,董晨.基于贝叶斯网络的缺失数据处理[J].沈阳工业大学学报,2010,32(1):79-83. 被引量：6
8彭红毅,朱思铭,蒋春福.数据挖掘中基于ICA的缺失数据值的估计[J].计算机科学,2005,32(12):203-205. 被引量：9
9HRUSCHKA E R,EBECKEN N F F.Missing values prediction with K2 [J]. Intelligent Data Analysis, 2002,6 (6): 557- 566.
10GEMAN S,GEMAN D.Stochastic relaxation,Gibbs distribution and the Bayesian restoration of images[J].IEEE Trans onPattern Analysis and Machine Intelligence, 1984(6):721.

二级参考文献19

1杨欣斌,孙京诰,黄道.基于Bayesian网络的缺损数据处理方法[J].华东理工大学学报（社会科学版）,2002,17(S1):41-44. 被引量：3
2Cooper G, Herskovits E. A Bayesian method for the induction of probabilistic networks from data [J]. Machine Learning, 1992 ( 9 ) : 309 - 347.
3Heckerman D, Geiger D, Chickering D. Learning Bayesian networks : the combination of knowledge and statistical data [ J ]. Machine Learning, 1995 (20) : 196 - 243.
4Paola S,Mareo R. Baysian inference with missing data using bound and collaps [R]. London:The Open University Research Report, 1997.
5Heckerman D. Bayesian networks for data missing [ J ]. Data Mining and Knowledge Discovery, 1997 (1) :79 -119.
6Kantardzic M.Data Mining Concepts,Models,Methods,and Algorithms.Beijing:Tsing hua University Press,2003.
7Feelders A D.Handling Missing Data in Trees:Surrogate Splits or Statistical Imputation.LNAI 1704,1999.329-334.
8Grzymala-Busse J W.Rough Set Approach to Incomplete Data.In:LNAI 3070,2004.50-55.
9Gerardo B D,et al.The Association Rule Algorithm with Missing Data in Data Mining.In:LNCS3043,2004.97-105.
10Li Dan,et al.Towards Missing Data Imputation- A Study of Fuzzy K-means Clustering Method.In:LNAI 3066,2004.573-579.

共引文献13

1彭红毅,蒋春福,朱思铭.基于ICA与SVM的孤立点挖掘模型[J].计算机科学,2006,33(9):175-177. 被引量：7
2彭红毅,蒋春福,朱思铭.一种改进的高维数据可视化模型[J].计算机科学,2007,34(4):175-178. 被引量：4
3彭红毅,蒋春福,朱思铭.基于ICA与ViSOM的不完整数据处理[J].计算机科学,2007,34(7):174-177.
4奉国和,彭红毅,蒋春福,杜明.基于ICA与SOM的不完整数据处理[J].计算机工程与应用,2008,44(4):166-168.
5彭红毅,蒋春福,杜明.基于ICA与聚类分析的支持向量机分类研究[J].计算机工程与应用,2008,44(8):169-171. 被引量：4
6王蒙,王雅洁,杨丕仁,杨润标.基于独立成分分析的自适应图像滤波算法[J].大理学院学报（综合版）,2010,9(4):30-33. 被引量：2
7彭红毅,叶燕锐,张俊辉,罗泽举,奉国和.DNA微阵列数据特征提取的分类方法研究[J].计算机工程与应用,2010,46(28):40-42. 被引量：1
8易秀龙.贝叶斯网络策略在试卷分析中的运用[J].决策与信息（下旬）,2013(1):211-211.
9王溪波,王彬,赵海,朱宏博,葛宏帅,朴春赫.基于HOG特征的优化区域模板匹配检测[J].沈阳工业大学学报,2016,38(6):667-673. 被引量：4
10周冬冬.基坑监测数据缺失的动态数学模型-参数插值恢复方法[J].中国水能及电气化,2017(7):52-58.

同被引文献50

1金连,王宏志,黄沈滨,高宏.基于Map-Reduce的大数据缺失值填充算法[J].计算机研究与发展,2013,50(S1):312-321. 被引量：18
2赵飞,刘奇志,张剡,柏文阳.一种大域数据流中缺失值的填充方法[J].南京大学学报（自然科学版）,2011,47(1):32-39. 被引量：4
3Ronald K. Pearson.The problem of disguised missing data[J].ACM SIGKDD Explorations Newsletter.2006(1)
4杨基栋.EM算法理论及其应用[J].安庆师范学院学报（自然科学版）,2009,15(4):30-35. 被引量：16
5陈先来,杨路明.基于均矢量相似性的机器学习样本集划分[J].中南大学学报（自然科学版）,2009,40(6):1636-1641. 被引量：7
6刘星毅,檀大耀,曾春华,韦小铃.基于马氏距离的缺失数据填充算法[J].微计算机信息,2010,26(9):225-226. 被引量：6
7李宏,阿玛尼,李平,吴敏.基于EM和贝叶斯网络的丢失数据填充算法[J].计算机工程与应用,2010,46(5):123-125. 被引量：21
8方匡南,谢邦昌.基于聚类关联规则的缺失数据处理研究[J].统计研究,2011,28(2):87-92. 被引量：32
9游晓锋,丁树良,刘红云.缺失数据的估计方法及应用[J].江西师范大学学报（自然科学版）,2011,35(3):325-330. 被引量：7
10王建军.影响医患关系和谐的因素及对策研究[J].江苏卫生事业管理,2011,22(5):118-120. 被引量：5

引证文献7

1朱彦君,吴向阳.基于张量分解的多维数据填充算法[J].计算机工程,2014,40(5):45-48. 被引量：2
2孙华艳,李业丽,字云飞,韩旭.基于分类的加速EM缺失数据填充算法[J].北京印刷学院学报,2019,27(2):61-65. 被引量：2
3孙华艳,李业丽,字云飞,韩旭,管欣鑫,周楚风.基于分类的加速EM缺失数据填充算法[J].北京印刷学院学报,2018,26(9):98-102. 被引量：1
4杨杰,杨虎,王鲁滨,金鑫,郭华,于亮亮.高维相关性缺失数据的分块填补算法研究[J].计算机科学与探索,2017,11(10):1557-1569. 被引量：6
5邓子畏,唐朝晖,朱红求,赵于前.基于改进EM算法的混凝土泵车数据治理[J].中南大学学报（自然科学版）,2021,52(2):443-449. 被引量：4
6王泽荣,蔡延光.半失能老人远程健康监测大数据缺失处理[J].电子技术与软件工程,2023(3):204-207.
7黎镭,陈蔼祥,姚赞杰.EM算法对缺失数据极大似然估计的实证研究[J].统计学与应用,2018,7(2):210-220. 被引量：2

二级引证文献16

1郑斌.基于改进遗传算法的不完整大数据填充挖掘算法[J].微电子学与计算机,2016,33(2):96-99. 被引量：6
2唐博.动态网络模糊域数据缺陷实时修正方法仿真[J].计算机仿真,2018,35(4):266-269. 被引量：2
3李彦,刘军.面向大数据的多维数据缺失特征填补仿真研究[J].计算机仿真,2018,35(10):432-435. 被引量：11
4曲杰,徐梁,李治均,赵小涵.基于数据挖掘的硬质聚氨酯泡沫的本构模型[J].机械设计与制造工程,2019,48(3):89-92. 被引量：2
5王丽雯,黄旭.大数据分析下不完备数据多重准确填补仿真[J].计算机仿真,2019,36(7):367-370. 被引量：3
6曹莉,许玉龙.传感器网络矢量关系化数据分块存储方法仿真[J].计算机仿真,2019,36(11):322-326. 被引量：2
7文占婷,王红伟,张建辉.基于云平台非标签化日志的流程挖掘模型设计[J].通信技术,2020,53(12):2995-3000. 被引量：2
8关玉欣,李雷孝.时空大数据的缺失数据流关联修复仿真[J].计算机仿真,2021,38(1):340-343. 被引量：2
9张兰秋月.缺失数据处理方法综述[J].电脑知识与技术,2021,17(25):48-50. 被引量：1
10李亮丹,晔沙,谢夏,胡月明,谢健文,周悟,游小敏.基于Hive的高寒草地海量数据高效分析系统设计研究[J].农业资源与环境学报,2021,38(6):1152-1163. 被引量：1

1宋东奇,宋余庆,刘哲,凌青华.新型适用于基因表达数据的模型聚类方法[J].计算机与应用化学,2015,32(1):71-74.
2刘青,何政.结合EM算法的朴素贝叶斯方法在中文网页分类上的应用[J].计算机工程与科学,2005,27(7):65-66. 被引量：4
3朱克武.演示文稿中填充效果在VB编程中的应用[J].电脑学习,2009(6):38-40.
4孟雪梅,韩富有.浅谈PowerPoint制作技巧[J].吉林商业高等专科学校学报,2002(4):42-43.
5宋志明,李桂华.用绘图工具制漂亮盒子[J].电脑知识与技术（过刊）,2005(3):37-38.
6Excel图表导入PPT后颜色不一致[J].电脑爱好者（普及版）,2010(A02):35-35.
7徐彬.增强演示文稿的吸引力[J].微电脑世界,2001(14):103-104.
8韩小祥.基于混合高斯模型测距误差修正和EM-SOM的节点定位算法设计[J].计算机测量与控制,2014,22(11):3676-3679. 被引量：1
9丁艳,曹倩,王超,潘金贵.基于Ontology和EM方法的网页分类研究[J].计算机科学,2003,30(11):112-115. 被引量：1
10吴昊,唐振军.加权壳近邻填充数学模型[J].华南师范大学学报（自然科学版）,2013,45(3):45-48. 被引量：4

微型机与应用

2011年第16期

浏览历史

内容加载中请稍等...

基于朴素贝叶斯的EM缺失数据填充算法被引量：7

参考文献10

二级参考文献19

共引文献13

同被引文献50

引证文献7

二级引证文献16

相关作者

相关机构

相关主题

浏览历史

基于朴素贝叶斯的EM缺失数据填充算法 被引量：7

参考文献10

二级参考文献19

共引文献13

同被引文献50

引证文献7

二级引证文献16

相关作者

相关机构

相关主题

浏览历史

基于朴素贝叶斯的EM缺失数据填充算法被引量：7