数据预处理和初始化方法对K-均值聚类的影响被引量：4

Effects of Data Preprocessing and Intialization on K-means Clustering

下载PDF

导出

摘要基于酵母二次迁移实验中表达谱相似的五类基因表达数据 ,研究了不同相似性度量准则、数据预处理方法及质心初始化方式对 K -均值聚类效果的影响。结果表明 :若对基因表达数据进行 K-均值聚类分析 ,最好采用能反映数据结构特征的向量对质心进行初始化。若随机初始化质心 ,则采用取相对表达水平的预处理方式 ,以欧几里德距离 (Euclidean distance)作为相似性测量准则 ,可以获得最佳的聚类结果 ;在欧氏距离准则下 ,标准化处理因可能破坏原始数据的幅度特征 ,而导致聚类结果变坏。若以 Based on the five groups of genes expressed similarly during yeast diauxic shift, we studied the effects of different measuring metrics, data preprocessing and centroids initialization on K means clustering. The results illustrate that the best centroids initialization in K means clustering is to select vectors characterized the structure of the dataset. However, if the centroids are initialized randomly, clustering on the relative expression ratio under Euclidean distance metrics can obtain the best results. With Euclidean distance, normalization of the dataset only leads to worse results, for amplitude character of the dataset maybe destroyed. Meanwhile, different data preprocessing ways make unclear differences under Pearson correlation coefficient metrics.

作者杨春梅万柏坤丁北生

机构地区天津大学精密仪器与光电子工程学院

出处《仪器仪表学报》 EI CAS CSCD 北大核心 2003年第z1期189-192,209,共5页 Chinese Journal of Scientific Instrument

关键词基因表达聚类分析 K-均值聚类数据预处理 Gene expression Clustering analysis K means clustering Data preprocess

分类号 Q-3 [生物学]

引文网络
相关文献

参考文献20

1[1]Ermolaeva O, Rastogi M, Pruitt K, et al., Data management and analysis for gene expression arrays. Nature Genetics, 1998,20:19～23.
2[2]Welford S, Gregg J, Chen E, et al., Detection of differentially expressed genes in primary tumor tissues using representational differences analysis coupled to microarray hybridization. Nucleic Acids Research, 1998, 26:3059～3065.
3[3]Charlie C, Chen Y. DNA microarray technology and its applications. Biotechnology Advances, 2000, 18(1): 35～46.
4[4]Brazma A, Vilo J. Gene expression data analysis. FEBS Lett., 2000, 480(1):17～24.
5[5]David R, Michael G. Interative visualization and exploration of relationships between biological objects. Trends in Biotechnology, 2000,18:487～494.
6[6]Tang C, Zhang L, Zhang A, et al., Interrelated Two-way Clustering:An Unsupervised Approach for Gene Expression Data Analysis. Proceedings 2nd Annual IEEE International Symposium on Bioinformatics and Bioengineering (BIBE 2001),2002, 41～48.
7[7]Sherlock G. Analysis of large-scale gene expression data. Curr. Opin. Immunol, 2000, 12:201～205.
8[8]Petri T, Mikko K, Wonga G, et al., Analysis of gene expression data using self-organizing maps. FEBS Letters, 1999,451:142～146.
9[9]Tamayo P, Slonim D, Mesirov J, et al., Interpreting patterns of gene expression with self-organizing maps: Methods and application to hematopoietic differentiation. Proc. Natl. Acad. Sci., USA, 1999, 96(6):2907～2912.
10[10]Kaski S. Learning metrics for exploratory data analysis. Neural Networks for Signal Processing XI. Proceedings of the 2001 IEEE Signal Processing Society Workshop, 2001, 53～62.

同被引文献38

1周文勇.改进的K-均值聚类算法[J].光盘技术,2007(2):54-56. 被引量：6
2SHI Zhi-qiang,YE Yi-fu.ANNOUNCEMENT[J].中国有色金属学会会刊：英文版,2004,14(3):450-450. 被引量：2
3李桂林,陈晓云.关于聚类分析中相似度的讨论[J].计算机工程与应用,2004,40(31):64-65. 被引量：26
4赵恒平,俞金寿.化工数据预处理及其在建模中的应用[J].华东理工大学学报（自然科学版）,2005,31(2):223-226. 被引量：17
5汪金良,卢宏,曾青云,张传福.基于遗传算法的铜闪速熔炼过程控制优化[J].中国有色金属学报,2007,17(1):156-160. 被引量：14
6吴江,唐常杰,段磊,李太勇.基于基因表达式编程的信用评估模型挖掘方法[J].计算机应用,2007,27(4):877-880. 被引量：5
7罗来鹏,刘二根.一种新的属性重要性度量及其规则获取[J].计算机工程与应用,2007,43(22):170-172. 被引量：6
8David Olson,Yong Shi.商业数据挖掘导论[M].北京:机械工业出版社,2007:44-45.
9Tsai C-F,Tsai C-W,Wu H-C,et al,ACODF:A novel data cluste-ring approach for data mining in large databases[J].The Journal of System and Software,2004,73:133-145.
10Han Jiaiwei,Micheline Kamber.Data mining concepts and tech-niques[M].Beijing:China Machine Press,2007:263-265.

引证文献4

1向剑平,唐常杰,陈瑜,胡进军,左劼,易树鸿.基于动力学聚类技术的银行信贷风险挖掘[J].计算机工程与设计,2009,30(14):3478-3480. 被引量：1
2赵春晖,王莹,Masahide Kaneko.一种改进的k-means聚类视觉词典构造方法[J].仪器仪表学报,2012,33(10):2380-2386. 被引量：8
3刘建华,桂卫华,谢永芳,王雅琳,蒋朝辉.基于投影寻踪回归的铜闪速熔炼过程关键工艺指标预测[J].中国有色金属学报,2012,22(11):3255-3260. 被引量：3
4王鑫,李璐.基于特征选择与谱聚类的视觉词典构建算法[J].计算机工程与应用,2014,50(7):133-138. 被引量：1

二级引证文献13

1向剑平,乔少杰,胡剑.基于聚类分析的申贷信用等级评价方法[J].云南大学学报（自然科学版）,2011,33(6):639-644. 被引量：1
2谈宇奇,王雪,林奎成.基于视觉压缩感知的传感网络行人目标辨识方法[J].仪器仪表学报,2014,35(11):2433-2439. 被引量：5
3李百寿,陈婷,高玉久.基于混合光谱特征的建筑物高分影像分类样本筛选[J].桂林理工大学学报,2014,34(4):704-710. 被引量：2
4黄婷,赵自明,李翠华.基于纹元森林的视觉词袋模型在图像分类中的应用[J].厦门大学学报（自然科学版）,2015,54(1):99-106.
5谢锴,米沙,严兵,李启.铜闪速熔炼过程操作参数预测模型及应用[J].有色金属（冶炼部分）,2015(5):5-9. 被引量：1
6王亲猛,郭学益,田庆华,廖立乐,张永柱.氧气底吹铜熔炼渣中多组元造渣行为及渣型优化[J].中国有色金属学报,2015,25(6):1678-1686. 被引量：19
7张宇献,彭辉灯,王建辉.基于异构值差度量的SOM混合属性数据聚类算法[J].仪器仪表学报,2016,37(11):2555-2562. 被引量：5
8金铭,汪友生,边航,王雨婷.一种基于视觉词袋模型的图像检索方法[J].计算机应用与软件,2017,34(4):249-254. 被引量：3
9陈龙,刘全利,王霖青,赵珺,王伟.基于数据的流程工业生产过程指标预测方法综述[J].自动化学报,2017,43(6):944-954. 被引量：31
10田文利.基于霍夫直线检测与二维透视变换的图像校正恢复算法[J].电子测量技术,2017,40(9):128-131. 被引量：18

1李峋,仵彦卿,范海梅.高维空间插值在海洋环境数据预处理中的应用[J].海洋环境科学,2009,28(6):729-733. 被引量：15
2刘天飞,唐国庆,李学伟.不同实验类型的基因表达数据聚类分析方法研究[J].畜牧兽医学报,2009,40(2):180-184. 被引量：2
3杨谷良,黄曙光.基于标准化处理的砂梨果实品质的评价[J].吉首大学学报（自然科学版）,2005,26(3):46-48. 被引量：2
4张涛,贾二惠,李彬,赵怡鹤,陈学亮.DNA检测平台数据预处理关键方法研究[J].警察技术,2014(1):12-14. 被引量：1
5王敏,黄寅,张伟,张尊建,许风国.代谢组学信息获取与数据预处理瓶颈问题探讨[J].药学进展,2014,38(2):81-88. 被引量：9
6申伟科,钟理.基因表达聚类分析及在肿瘤研究中的应用[J].肿瘤学杂志,2008,14(5):417-420. 被引量：1
7吴斌,沈自尹.基因芯片表达谱数据的预处理分析[J].中国生物化学与分子生物学报,2006,22(4):272-277. 被引量：7
8高杨,滕晓坤,肖华胜.生物芯片数据处理和分析方法[J].生物产业技术,2011(1):50-56.
9邹小波,赵杰文.电子鼻数据的预处理技术与应用[J].农业机械学报,2006,37(5):83-86. 被引量：20
10宋凯,李霞.面向代谢组学的模式识别技术应用与展望[J].生物信息学,2008,6(2):90-92. 被引量：6

仪器仪表学报

2003年第z1期

浏览历史

内容加载中请稍等...

数据预处理和初始化方法对K-均值聚类的影响被引量：4

参考文献20

同被引文献38

引证文献4

二级引证文献13

相关作者

相关机构

相关主题

浏览历史

数据预处理和初始化方法对K-均值聚类的影响 被引量：4

参考文献20

同被引文献38

引证文献4

二级引证文献13

相关作者

相关机构

相关主题

浏览历史

数据预处理和初始化方法对K-均值聚类的影响被引量：4