摘要
本文通过将生物学特征和生物学含义引入DNA序列数据的压缩处理中,提出了基于生物信息学特征的BioLZMA压缩算法.在BioLZMA算法中,DNA序列根据组成部分生物学含义的不同切分重组为四个集合:编码序列CDS集合、内含子序列集合、RNA序列集合以及剩余序列的集合.根据各集合中序列的具体生物学特征分别使用针对性的压缩策略进行预处理,并通过LZMA算法进行压缩编码.实验结果表明,BioLZMA算法在基准测试序列上的压缩性能优于原有的DNA序列压缩方法.特别是对于生物信息学特征清晰的长序列,算法能够在较短的时间内获得较高的压缩率.
A novel bioinformatics features based DNA Sequence data compression algorithm of BioLZMA is proposed in this paper.In BioLZMA,the DNA sequence data is sliced and reformed into 4 clusters according with biological meanings:the coding sequence cluster,the intron cluster,the RNA cluster and the residual cluster.By employing pointed compression strategies in data pre-processing,the clusters are compressed separately with LZMA algorithm.Experimental results demonstrated the better performance of BioLZMA than original DNA compression algorithms on benchmark sequences.Especially on long DNA sequence with significant bioinformatics features,BioLZMA algorithm can achieve higher compression ratio with little computation time.
出处
《电子学报》
EI
CAS
CSCD
北大核心
2011年第5期991-995,共5页
Acta Electronica Sinica
基金
国家自然科学基金(No.60872125)
霍英东教育基金会高等院校青年教师基金基础性研究课题
深圳市基础研究项目(杰青奖)
广东省自然科学基金
关键词
DNA数据压缩
生物信息学
序列重组
近似重复片段
LZMA
DNA sequence data compression
bioinformatics
sequence regroup
approximate repeat fragment
Lempel-Ziv-Markov chain algorithm(LZMA)