基于生物信息学特征的DNA序列数据压缩算法被引量：8

Bioinformatics Features Based DNA Sequence Data Compression Algorithm

下载PDF

导出

摘要本文通过将生物学特征和生物学含义引入DNA序列数据的压缩处理中,提出了基于生物信息学特征的BioLZMA压缩算法.在BioLZMA算法中,DNA序列根据组成部分生物学含义的不同切分重组为四个集合:编码序列CDS集合、内含子序列集合、RNA序列集合以及剩余序列的集合.根据各集合中序列的具体生物学特征分别使用针对性的压缩策略进行预处理,并通过LZMA算法进行压缩编码.实验结果表明,BioLZMA算法在基准测试序列上的压缩性能优于原有的DNA序列压缩方法.特别是对于生物信息学特征清晰的长序列,算法能够在较短的时间内获得较高的压缩率. A novel bioinformatics features based DNA Sequence data compression algorithm of BioLZMA is proposed in this paper.In BioLZMA,the DNA sequence data is sliced and reformed into 4 clusters according with biological meanings：the coding sequence cluster,the intron cluster,the RNA cluster and the residual cluster.By employing pointed compression strategies in data pre-processing,the clusters are compressed separately with LZMA algorithm.Experimental results demonstrated the better performance of BioLZMA than original DNA compression algorithms on benchmark sequences.Especially on long DNA sequence with significant bioinformatics features,BioLZMA algorithm can achieve higher compression ratio with little computation time.

作者纪震周家锐朱泽轩 Q H Wu

机构地区深圳大学计算机与软件学院浙江大学生物医学工程与仪器科学院利物浦大学电气电子工程系

出处《电子学报》 EI CAS CSCD 北大核心 2011年第5期991-995,共5页 Acta Electronica Sinica

基金国家自然科学基金(No.60872125) 霍英东教育基金会高等院校青年教师基金基础性研究课题深圳市基础研究项目(杰青奖) 广东省自然科学基金

关键词 DNA数据压缩生物信息学序列重组近似重复片段 LZMA DNA sequence data compression bioinformatics sequence regroup approximate repeat fragment Lempel-Ziv-Markov chain algorithm（LZMA）

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献15

1Galperin M Y,Cochrane G R. Petabyte-scale innovations at the european nucleotide archive E J ], Nucleic Acids Research, 2009,37:D1-D4.
2Srinivasa K G,Jagadish M,et al.Efficient compression of non- repetitive DNA sequences using dynamic programming [A]. Proc of International Conference on Advanced Computing and Communications[C]. Mangalore: ADCOM, 2006.569 - 574.
3Grumbach S, Tahi F. Compression of DNA sequences[ A ]. Proc of Data Compression Conference [C]. Snowbird: DCC, 1993. 340 - 350.
4Chen X, Kwong S, et al. A compression algorithm for DNA sequences and its applications in genome comparison [ A]. Proc of the 10th Workshop on Genome Informatics [ C ]. Tokyo: GIW, 1999.51 - 61.
5Matsumoto T, Sadakane K, et al. Biological sequence compres- algorithms [ A ]. Proc of Genome Informatics Workshop [ C]. Tokyo: CIW, 2000.43 - 52.
6Chen X, Li M, et al. DNACompress: Fast and effective DNA sequence compression[J].Bioinformatics,2002,18 (12) : 1696 - 1698.
7Korodi G, Tabus I. An efficient normalized maximum likelihood algorithm for DNA sequence compression [J].ACM Transactions on Information Systems,2005,23 ( 1 ) :3 - 34.
8林毅申,林丕源,彭宏.基于字典的DNA序列压缩算法研究及应用[J].计算机应用研究,2007,24(6):265-267. 被引量：4
9Baxevanis A D, Ouellette B F F. Bioinformatics: A Practical Guide to the Analysis of Genes and Proteins, Third Edition [M]. United States: Wiley Publishing House,2005.
10王玉,饶妮妮,匡斌,袁祚涌.基于小波变换技术预测DNA序列的编码区[J].电子学报,2007,35(1):141-144. 被引量：6

二级参考文献22

1邢仲璟,林丕源,林毅申.基于Bioperl的生物二次数据库建立及应用[J].计算机系统应用,2004,13(11):58-60. 被引量：7
2R B Farber,A S Lapedes,Sirotkin K M.Determination of eukaryotic protein coding regions using neural networks and information theory[J].J Mol Biol,1992,226(2):471-479.
3S V Buldyrev,et al.Long-range correlation properties of coding and noncoding DNA sequences:Genbank analysis[J].Phys Rev E,1995,51(5):5084-5094.
4S Dong,D B Searls.Gene structure prediction by linguistic methods[J].Genomics,1994,23(3):540-551.
5W Lee,L Luo.Periodicity of base correlation in nucleotide sequence[J].Phys Rev E,1997,56(1):848-851.
6John A Berger,Sanjit K Mitra,Marco Carli,et al.Visualization and analysis of DNA sequences using DNA walks[J].Journal of the Franklin Institute,2004,341(1-2):37-53.
7D Anasstassiou.Frequency-domain analysis of bio-molecular sequences[J].J.Bioinformatics,2000,16(12):1073-1081.
8Stephane Mallat.A Wavelet Tour of Signal Processing.Academic Press[M].Sept.15,1999.
9S Tiwari,S Ramachandran,A Bhattacharya,et al.Prediction of probable genes by Fourier analysis of genomic sequences[J].CABIOS,1997,13(3):263-270.
10M Burset,R Guigó.Evaluation of Gene Structure prediction program[J].Genomics,1996,34(3):353-367.

共引文献6

1张永明,邓盛川,齐维贵.局域支持向量回归与误差区间估计的概率预报方法及其应用研究[J].电子学报,2010,38(1):190-194. 被引量：1
2纪震,周家锐,姜来,Q.H.Wu.DNA序列数据压缩技术综述[J].电子学报,2010,38(5):1113-1121. 被引量：8
3马玉韬,车进,刘大铭.基于傅里叶分析的蛋白质编码区预测中功率谱密度计算方法研究[J].宁夏大学学报（自然科学版）,2011,32(2):134-138. 被引量：6
4蒋瀚洋,郑光勇,朱雅莉.系统中DNA编码及算法分析[J].煤炭技术,2012,31(9):167-168.
5周家锐,纪震,朱泽轩,陈思平.基于Memetic优化的智能DNA序列数据压缩算法[J].电子学报,2013,41(3):513-518. 被引量：2
6张力丹,梁晓佳,李丹,曹兴芹.基于HMM的算法和功率谱算法的基因预测对比研究[J].长沙大学学报,2013,27(2):49-50.

同被引文献86

1王玉,饶妮妮,匡斌,袁祚涌.基于小波变换技术预测DNA序列的编码区[J].电子学报,2007,35(1):141-144. 被引量：6
2林毅申,林丕源,彭宏.基于字典的DNA序列压缩算法研究及应用[J].计算机应用研究,2007,24(6):265-267. 被引量：4
3周家锐,纪震,等.基于自适应智能单粒子优化算法的Gabor人脸识别方法[A].全国模式识别学术会议[C].重庆:CCPR,2010.359-363.
4张丽霞,张义青,林丕源,刘吉平.基于字符和0/1码的DNA压缩模式匹配算法[J].计算机应用研究,2007,24(9):22-24. 被引量：3
5Ferreira P J S G, Neves A J R, et al. Explorin three-base periodicity for DNA compression and modeling. Proceeding of the IEEE Confer- ence on Acoustics ,Speech and Signal Processing. Toulouse ,2006: 877-880.
6Chen X, Kwong S, et al. A compression algorithm for DNA se- quences and its applications in genome comparison. Procceeding of the 10th Workshop on Genome Informatics. Tokyo: GIW, 1999:51 - 61.
7Korodi G, Tabus I, et al. DNA sequence compression-based on the normalized maximum likelihood model IEEE Signal Processing Maga- zine, 2007 ; 24 ( 1 ) :47-53.
8Galpedn M Y, Cochrane G R. Petabyte-scale innovations at the European nucleotide archive[J]. Nucleic Acids Research, 2009, 37:D1 - D4.
9Srinivasa K G, Jagadish M, et al. Efficient compression of non- repetitive DNA sequences using dynamic programming [ A ]. Proceeding of International Conference on Advanced Comput- ing and Communications [ C ]. Mangalore: ADCOM, 2006. 569 - 574.
10Chen X, Kwong S, et al. A compression algorithm for DNA se- quences and its applications in genome comparison[ A ]. Pro- ceeding of the 10th Workshop on Genome Informafics[ C]. Tokyo: GIW, 1999.51 - 61.

引证文献8

1熊文萍,孙季丰.基于统计分析与分段码书的DNA序列压缩新方法[J].科学技术与工程,2012,20(29):7505-7509.
2周家锐,纪震,朱泽轩,陈思平.基于Memetic优化的智能DNA序列数据压缩算法[J].电子学报,2013,41(3):513-518. 被引量：2
3谭丽,孙季丰,郭礼华.基于Memetic算法的DNA序列数据压缩方法[J].电子与信息学报,2014,36(1):121-127. 被引量：2
4孙季丰,仝雪珂,谭丽.基于混合统计模型的DNA序列压缩算法[J].华南理工大学学报（自然科学版）,2014,42(3):8-14.
5谭丽,孙季丰.基于码书索引变换的高通量DNA序列数据压缩算法[J].电子学报,2015,43(5):1007-1013. 被引量：1
6特日跟,江晟,李雄飞,李军.基于整数数据的文档压缩编码方案[J].吉林大学学报（工学版）,2016,46(1):228-234. 被引量：4
7张淑芳,彭康,宋香明,张子昱,王汉杰.DNA数据存储技术研究进展[J].计算机科学,2019,46(6):21-28. 被引量：4
8沈鹏,李颢,孙清江,陆祖宏,高雅琨,吴瑾.DNA存储技术[J].生命科学仪器,2020,18(2):3-13. 被引量：2

二级引证文献15

1李冬梅.神经网络与协同计算机数据压缩有效途径分析[J].消费电子,2014(2):121-121.
2谭丽,孙季丰.基于码书索引变换的高通量DNA序列数据压缩算法[J].电子学报,2015,43(5):1007-1013. 被引量：1
3李英,崔艳鹏,高新波.一种基于算术编码的文本数据压缩算法[J].电子科技大学学报,2016,45(6):929-933. 被引量：5
4王亚雄,康峰,李文彬,文剑,郑永军.面向立木识别的有效K-均值聚类算法研究[J].农业机械学报,2017,48(3):230-237. 被引量：5
5郝武伟,李俊吉.粒子群算法对高维问题的优化研究[J].控制工程,2018,25(5):870-877. 被引量：5
6王冠男.云存储中一种改进的LZW数据压缩算法研究[J].科技通报,2017,33(7):105-108. 被引量：3
7陈星,陈亚文,马创,舒世钰.智能电表读数无损压缩算法[J].信息技术,2020,44(1):42-47. 被引量：1
8汪洋,陈枢舒,魏鑫,孔丽华,洪学海,廖方宇.生物技术启发下的信息技术革新[J].中国科学院院刊,2020,35(1):43-51. 被引量：3
9毛秀海,李凡,左小磊.DNA数据存储[J].电子与信息学报,2020,42(6):1303-1312. 被引量：2
10崔芳芳,翟运开,高景宏,王琳琳,赵杰.面向精准医疗的大数据质量控制研究[J].中国卫生事业管理,2020,37(6):408-410. 被引量：8

1康彦,查艳.基于LZMA的钻杆磁漏检测数据压缩方法研究[J].贵阳学院学报（自然科学版）,2015,10(1):13-15.
2赵帮,何倩,王勇,姚琳琳.基于LZMA和多版本的网页防篡改备份恢复机制[J].计算机应用,2012,32(7):1998-2002. 被引量：6
3韩林,张春海,徐建良.基于二维码的内外网物理隔离环境下的数据交换[J].计算机科学,2016,43(S2):520-522. 被引量：10
4常力元.7-Zip的超强压缩[J].开放系统世界,2006(1):68-68.
5戚斌.基于Hadoop的电子通信数据快速存储系统设计[J].电子技术与软件工程,2016(17):179-179.
6腾袭.LZMA算法压缩数据[J].黑客防线,2010(7):88-89.
7易军凯,王雪峰,万静.代码变形的增强LZMA算法[J].计算机应用与软件,2015,32(5):302-306. 被引量：1
8欧阳继超,冯萍,康继昌.超长DNA序列的高效压缩算法研究[J].计算机技术与发展,2013,23(12):1-4.
9纪震,周家锐,姜来,Q.H.Wu.DNA序列数据压缩技术综述[J].电子学报,2010,38(5):1113-1121. 被引量：8
10张莉.生物学特征[J].故事世界,2007,0(24):76-77.

电子学报

2011年第5期

浏览历史

内容加载中请稍等...

基于生物信息学特征的DNA序列数据压缩算法被引量：8

参考文献15

二级参考文献22

共引文献6

同被引文献86

引证文献8

二级引证文献15

相关作者

相关机构

相关主题

浏览历史

基于生物信息学特征的DNA序列数据压缩算法 被引量：8

参考文献15

二级参考文献22

共引文献6

同被引文献86

引证文献8

二级引证文献15

相关作者

相关机构

相关主题

浏览历史

基于生物信息学特征的DNA序列数据压缩算法被引量：8