摘要
提出一种对蛋白质结构聚类中心进行选择的算法.聚类是蛋白质结构预测过程中必不可少的一个后处理步骤,而目前在蛋白质结构预测中常用的属性阈值(Quality threshold,QT)聚类算法依赖于由经验得出的聚类半径;其他聚类算法,如近邻传播(Affinity propagation,AP)聚类算法也存在影响聚类分布的参数.为克服对主观经验参数的依赖,本文提出一种聚类中心选择算法(Exemplar selection algorithm,ESA),用于对不同参数下的聚类结果进行分析,从而选择最佳聚类中心,进而确定聚类半径等经验参数.该算法在真实蛋白质结构数据集上进行了实验,在未知经验参数情况下选择出最佳聚类中心,同时也为不同聚类算法寻找适合相应数据集的客观聚类参数提供了支持.
This paper proposes an exemplar selection algorithm(ESA)for protein structures clustering,which is a necessary post-processing step for protein structure prediction.The widely-used quality threshold(QT)algorithm in protein structure prediction depends on clustering radius derived from experience,which also affects clustering distribution in other widely-used clustering algorithms such as affinity propagation(AP).The proposed exemplar selection algorithm can analyze clustering results,choose the best exemplar,and confirm clustering parameter such as clustering radius. Experimental results on real protein structure predictions confirm the effectiveness of our exemplar selection algorithm, which can choose the best exemplar with no experience parameter,and can find the best parameter fitting for data set.
出处
《自动化学报》
EI
CSCD
北大核心
2011年第6期682-692,共11页
Acta Automatica Sinica
基金
国家自然科学基金(60970055)资助~~
关键词
蛋白质结构
聚类
属性阈值
近邻传播
聚类中心选择
Protein structure
clustering
quality threshold(QT)
affnity propagation(AP)
exemplar selection