序列化信息瓶颈(Sequential information bottleneck,sIB)算法是一种广泛使用的聚类算法。该算法采用联合概率模型表示数据,对样本和属性的相关性有较好的表达能力。但是sIB算法采用的联合概率模型假设数据各个属性对聚类的贡献度相同,...序列化信息瓶颈(Sequential information bottleneck,sIB)算法是一种广泛使用的聚类算法。该算法采用联合概率模型表示数据,对样本和属性的相关性有较好的表达能力。但是sIB算法采用的联合概率模型假设数据各个属性对聚类的贡献度相同,从而削弱了聚类效果。本文提出了赋权联合概率模型概念,采用互信息度量属性重要度,并构建赋权联合概率模型来优化数据表示,从而达到突出代表性属性、抑制冗余属性的目的。UCI数据集上的实验表明,基于赋权联合概率模型的WJPM_sIB算法优于sIB算法,在F1评价下,WJPM_sIB算法聚类结果比sIB算法提高了5.90%。展开更多
文摘序列化信息瓶颈(Sequential information bottleneck,sIB)算法是一种广泛使用的聚类算法。该算法采用联合概率模型表示数据,对样本和属性的相关性有较好的表达能力。但是sIB算法采用的联合概率模型假设数据各个属性对聚类的贡献度相同,从而削弱了聚类效果。本文提出了赋权联合概率模型概念,采用互信息度量属性重要度,并构建赋权联合概率模型来优化数据表示,从而达到突出代表性属性、抑制冗余属性的目的。UCI数据集上的实验表明,基于赋权联合概率模型的WJPM_sIB算法优于sIB算法,在F1评价下,WJPM_sIB算法聚类结果比sIB算法提高了5.90%。