基于Hadoop的微阵列数据两阶段并行K近邻基因提取被引量：1

Micro-array Data Two-stage Parallel K Nearest Neighbor Gene Extraction Based on Hadoop

下载PDF

导出

摘要基因信息选取工作中由于数据量庞大,传统单线程运行的分类查询方法无法满足实时性与提取精度要求。为此,利用Hadoop框架设计两阶段并行计算模型。其中第1阶段用于候选基因子集并行选取,第2阶段用于并行K近邻基因信息选取,从而实现并行计算的全过程覆盖。为降低算法的计算复杂度,针对基因信息微阵列数据,定义数据筛选指标对其进行采样,在降低数据处理量的同时消除数据冗余。实验结果表明,该算法具有较高的运行效率,并且继承了Hadoop编程模型的可扩展特性,可移植性较强。 Because of huge amount of data in gene information extraction, whose real-time requirements can not be met by traditional methods with single threaded operation, the Hadoop framework is used to design the two-stage parallel computing model. The first stage is used to extract candidate gene subset, and the second stage is used to extract parallel K nearest neighbor genetic information, and it implements whole process cover of parallel computing. At the same time,in order to further reduce the computational complexity of the algorithm, the microarray data sampling method is used to reduce the amount of data processing and eliminate data redundancy. Experimental results show that the proposed algorithm has better running efficiency, inherits the extensible features of Hadoop programming model and has strong portability.

作者齐向明郑帅魏萍

机构地区辽宁工程技术大学软件学院中国石油大学地球物理与信息工程学院

出处《计算机工程》 CAS CSCD 北大核心 2016年第5期54-59,共6页 Computer Engineering

基金辽宁省教育厅基金资助项目(L2012113)

关键词 Hadoop框架并行计算微阵列采样大数据 K近邻基因信息 Hadoop framework parallel computing micro-array sampling big data K nearest neighbor gene information

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献15

1Katsigiannis K,Zacharia E,Maroulis D.Grow-cut Based Automatic c DNA Microarray Image Segmentation[J].IEEE Transactions on Nano Bioscience,2015,14(1):138-144.
2Sakashita H,Akamine S,Ishida T.Erratum to:Identification of the NEDD4L Gene as a Prognostic Marker by Integrated Microarray Analysis of Copy Number and Gene Expression Profiling in Non-small Cell Lung Cancer[J].Annals of Surgical Oncology,2014,21(4):783-792.
3于化龙,顾国昌,赵靖,刘海波,沈晶.基于DNA微阵列数据的癌症分类问题研究进展[J].计算机科学,2010,37(10):16-22. 被引量：20
4印莹,赵宇海,张斌,王国仁.时序微阵列数据中的同步和异步共调控基因聚类[J].计算机学报,2007,30(8):1302-1314. 被引量：5
5Patrick C H,Keith C C,Yao Xin.An Evolutionary Clustering Algorithm for Gene Expression Microarray Data Analysis[J].IEEE Transactions on Evolutionary Computation,2006,10(3):296-314.
6Chan S C,Wu Haichang,Tsui K M.A New Method for Preliminary Identification of Gene Regulatory Networks from Gene Microarray Cancer Data Using Ridge Partial Least Squares with Recursive Feature Elimination and Novel Brier and Occurrence Probability Measures[J].IEEE Transactions on Systems,Man and Cybernetics,Part A:Systems and Humans,2012,42(6):1514-1528.
7张靖,胡学钢,李培培,张玉红.基于迭代Lasso的肿瘤分类信息基因选择方法研究[J].模式识别与人工智能,2014,27(1):49-59. 被引量：18
8史建军,缪裕青.微阵列数据中Top-k频繁闭合项集挖掘[J].计算机工程,2011,37(2):60-62. 被引量：1
9宋佳,许力,孙洪.基于图论的DNA微阵列数据聚类算法[J].计算机工程,2014,40(5):36-40. 被引量：1
10Lee C P,Leu Y.A Novel Hybrid Feature Selection Method for Microarray Data Analysis[J].Application Software Computing,2011,11(1):208-213.

二级参考文献136

1刘义,陈荦,景宁,刘露.海量空间数据的并行Top-k连接查询[J].计算机研究与发展,2011,48(S3):163-172. 被引量：7
2张振跃,查宏远.Principal Manifolds and Nonlinear Dimensionality Reduction via Tangent Space Alignment[J].Journal of Shanghai University(English Edition),2004,8(4):406-424. 被引量：73
3李颖新,阮晓钢.基于支持向量机的肿瘤分类特征基因选取[J].计算机研究与发展,2005,42(10):1796-1801. 被引量：51
4李颖新,李建更,阮晓钢.肿瘤基因表达谱分类特征基因选取问题及分析方法研究[J].计算机学报,2006,29(2):324-330. 被引量：45
5李建中,杨昆,高宏,骆吉洲,郭政.考虑样本不平衡的模型无关的基因选择方法[J].软件学报,2006,17(7):1485-1493. 被引量：24
6毛勇,周晓波,夏铮,尹征,孙优贤.特征选择算法研究综述[J].模式识别与人工智能,2007,20(2):211-218. 被引量：95
7ALON U, BARKAI N, NOTFERMAN D A, et al. Broad patterns of gene expression revealed by clustering analysis of tumor and normal colon tissues probed by Oligonucleotide array [ J]. Proceedings of the National Academy of Sciences, 1999,96(12) :6745-6750.
8GOLUB T R, SLONIM D K, TAMAYO P, et al. Molecular classification of cancer: class discovery and class prediction by gene expression monitorlng [ J ]. Science, 1999,286 (5439) :531 - 537.
9GUYON 1, WESTON J, BARNHILL S, et al. Gene selection for cancer classification using support vector machines [ J ]. Machine Learning, 2002,46( 1 ) :389-422.
10DETTLING M. BagBoosting for tumor classification with gene expression data[ J]. Bioinformatics, 2004, 20(18) :3583-3593.

共引文献52

1吕清芬,徐美萍.基于SMA模型的扩张型心肌病影响基因分析[J].数学的实践与认识,2020,0(3):180-186. 被引量：1
2王广云,倪青山,强波,王正志.Hela基因周期表达数据聚类及功能分析[J].现代生物医学进展,2009,9(2):330-333.
3徐丹,徐明,左欣.集成SVM在微阵列数据分析中的应用[J].计算机与现代化,2011(5):4-6.
4于化龙,高尚,赵靖,秦斌.基于过采样技术和随机森林的不平衡微阵列数据分类方法研究[J].计算机科学,2012,39(5):190-194. 被引量：9
5何兰,范继红,滕辉,潘洪明.基因表达谱中特征基因选择的几种方法比较研究[J].中国科技信息,2012(14):110-110.
6李强,石陆魁,刘恩海,王歌.基于流形学习的基因微阵列数据分类方法[J].郑州大学学报（工学版）,2012,33(5):121-124. 被引量：1
7何兰,范继红.基因芯片数据特征选择法研究[J].医学信息学杂志,2012,33(10):44-47.
8张岩,闫德勤,吕志超,郑宏亮.强相关树基因选择方法及AE-RSVM分类研究[J].计算机工程与应用,2013,49(17):245-249.
9王进,黄萍丽,孙开伟,蔡通.基于演化学习超网络的微阵列数据分类[J].江苏大学学报（自然科学版）,2014,35(1):56-62. 被引量：5
10刘德山,孙丽,闫德勤.一种基因数据分析的半监督学习算法[J].微型机与应用,2014,33(12):44-47. 被引量：2

同被引文献8

1刘瑞丰,蔡晋安,彭克银,单新建,代光辉,田力,庞丽娜,张爱武.地震科学数据共享工程[J].地震,2007,27(2):9-16. 被引量：28
2陈吉荣,乐嘉锦.基于Hadoop生态系统的大数据解决方案综述[J].计算机工程与科学,2013,35(10):25-35. 被引量：118
3刘坚,李盛乐,戴苗,陈晓琳,康凯,刘珠妹,郭啟倩.基于Hbase的地震大数据存储研究[J].大地测量与地球动力学,2015,35(5):890-893. 被引量：14
4李永红,周娜,赵国峰,王方建.云计算环境下地震数据管理与服务应用研究[J].震灾防御技术,2015,10(B10):811-817. 被引量：5
5王丹宁,柴旭超,王文青.Hadoop平台下的地震波形数据存储与应用规划[J].软件工程,2016,19(1):48-49. 被引量：10
6陆宏治,邹时容.一种基于SSD的高性能Hadoop系统的设计与应用[J].科技资讯,2015,13(29):1-2. 被引量：1
7郭凯,黄金刚,彭克银,庞丽娜.大数据技术在海量测震数据中的研究应用[J].地震研究,2017,40(2):317-323. 被引量：12
8刘瑞丰.中国地震台网的建设与发展[J].地震地磁观测与研究,2016,37(4):201-201. 被引量：11

引证文献1

1郭凯,彭克银,雷蕾.测震波形数据存储和管理系统设计与实现[J].中国科技资源导刊,2017,49(6):76-80. 被引量：1

二级引证文献1

1吴峥,王方建,丁艳青,李华玥.地震实时波形数据汇聚系统设计与实现[J].中国地震,2020,36(3):639-646. 被引量：4

1熊德景,胡学钢,田卫东.基于B样条基函数的定精度模糊推理方法[J].微计算机信息,2010,26(33):251-253. 被引量：1
2任俊玲,车蕾.标记和数据相融合的网页信息隐藏算法[J].北京信息科技大学学报（自然科学版）,2012,27(4):43-46. 被引量：1
3黄征宇.融合的敏捷步[J].中国信息化,2011(19):50-50.
4刘强,赵玉柱.交换技术现状和发展趋势初探[J].电子技术与软件工程,2013(17):66-66.
5水思源.惠普全新融合存储助力企业提升敏捷性[J].科技信息（石油与装备）,2011(5):76-76.
6好消息：超级计算机治疗癌症[J].新闻周刊,2001(19):21-21.
7钱洁,郑建国.采用群体统计学习的量子进化算法[J].西安交通大学学报,2012,46(2):51-58. 被引量：7
8万剑怡,孙永强,薛锦云.一种基于设计模式的三阶段并行程序设计方法[J].计算机研究与发展,2002,39(3):324-329. 被引量：9
9乔钢柱,郭银章,曾建潮.基于CMM软件过程的阶段并行开发模型研究[J].电脑知识与技术,2006(6):164-164.
10张朝辉,刘文予,郑玉婷,张帆.局部集的3D模型水印方法[J].中国图象图形学报,2009,14(7):1298-1306. 被引量：2

计算机工程

2016年第5期

浏览历史

内容加载中请稍等...

基于Hadoop的微阵列数据两阶段并行K近邻基因提取被引量：1

参考文献15

二级参考文献136

共引文献52

同被引文献8

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于Hadoop的微阵列数据两阶段并行K近邻基因提取 被引量：1

参考文献15

二级参考文献136

共引文献52

同被引文献8

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于Hadoop的微阵列数据两阶段并行K近邻基因提取被引量：1