近年来深度学习在短文本聚类方面发挥巨大作用,最近提出的短文本聚类(Short Text Clustering, STC)算法在此方面取得不错的成效。为进一步提高聚类准确率并优化算法性能,基于指数函数提出改进的随机近邻嵌入算法。该算法用指数函数度量...近年来深度学习在短文本聚类方面发挥巨大作用,最近提出的短文本聚类(Short Text Clustering, STC)算法在此方面取得不错的成效。为进一步提高聚类准确率并优化算法性能,基于指数函数提出改进的随机近邻嵌入算法。该算法用指数函数度量样本点与聚类中心差距,放大不同特征差别,并在后期使用k-means++算法预先确定聚类中心与聚类数目。在Stackoverflow数据集上的实验证明,随机指数嵌入聚类模型(e-STC)在准确率与标准互信息上均优于原STC模型,准确率相对提高3.2%,互信息相对提高2.9%。展开更多
针对传统近邻传播聚类算法以数据点对之间的相似度作为输入度量,由于需要预设偏向参数p和阻尼系数λ,算法精度无法精确控制的问题,提出了一种跳跃跟踪麻雀搜索算法优化的交叉迭代近邻传播聚类方法.首先,针对麻雀搜索算法中发现者和加入...针对传统近邻传播聚类算法以数据点对之间的相似度作为输入度量,由于需要预设偏向参数p和阻尼系数λ,算法精度无法精确控制的问题,提出了一种跳跃跟踪麻雀搜索算法优化的交叉迭代近邻传播聚类方法.首先,针对麻雀搜索算法中发现者和加入者位置更新不足的问题,设计了一种跳跃跟踪优化策略,通过考虑偏好阻尼因子的跳跃策略设计大步长更新发现者,增加麻雀搜索算法的全局勘探能力和寻优速度,加入者设计动态小步长跟踪领头雀更新位置,同时,利用自适应种群划分机制更新发现者和加入者的比重,增加算法的后期局部开发能力和寻优速度;其次,设计基于扰动因子的Tent映射,在此基础上增加3个参数,使映射分布范围增大,并避免了陷入小周期点和不稳周期点;最后,引入轮廓系数作为评价函数,跳跃跟踪麻雀搜索算法自动寻找较优的p和λ,代替手动输入参数,并融合基于扰动因子的Tent映射优化近邻传播算法,交叉迭代确定最优簇数.使用多种算法聚类University of California Irvine数据集的10种公共数据集,仿真结果表明,本文提出的聚类算法与经典近邻传播算法、基于差分改进的仿射传播聚类算法、基于麻雀搜索算法优化的近邻传播聚类算法和进化近邻传播算法相比具有更优的搜索效率以及聚类精度.对国家信息数据进行了聚类分析,提出的方法更加准确有效合理,具有较好的应用价值.展开更多
文摘近年来深度学习在短文本聚类方面发挥巨大作用,最近提出的短文本聚类(Short Text Clustering, STC)算法在此方面取得不错的成效。为进一步提高聚类准确率并优化算法性能,基于指数函数提出改进的随机近邻嵌入算法。该算法用指数函数度量样本点与聚类中心差距,放大不同特征差别,并在后期使用k-means++算法预先确定聚类中心与聚类数目。在Stackoverflow数据集上的实验证明,随机指数嵌入聚类模型(e-STC)在准确率与标准互信息上均优于原STC模型,准确率相对提高3.2%,互信息相对提高2.9%。
文摘针对传统近邻传播聚类算法以数据点对之间的相似度作为输入度量,由于需要预设偏向参数p和阻尼系数λ,算法精度无法精确控制的问题,提出了一种跳跃跟踪麻雀搜索算法优化的交叉迭代近邻传播聚类方法.首先,针对麻雀搜索算法中发现者和加入者位置更新不足的问题,设计了一种跳跃跟踪优化策略,通过考虑偏好阻尼因子的跳跃策略设计大步长更新发现者,增加麻雀搜索算法的全局勘探能力和寻优速度,加入者设计动态小步长跟踪领头雀更新位置,同时,利用自适应种群划分机制更新发现者和加入者的比重,增加算法的后期局部开发能力和寻优速度;其次,设计基于扰动因子的Tent映射,在此基础上增加3个参数,使映射分布范围增大,并避免了陷入小周期点和不稳周期点;最后,引入轮廓系数作为评价函数,跳跃跟踪麻雀搜索算法自动寻找较优的p和λ,代替手动输入参数,并融合基于扰动因子的Tent映射优化近邻传播算法,交叉迭代确定最优簇数.使用多种算法聚类University of California Irvine数据集的10种公共数据集,仿真结果表明,本文提出的聚类算法与经典近邻传播算法、基于差分改进的仿射传播聚类算法、基于麻雀搜索算法优化的近邻传播聚类算法和进化近邻传播算法相比具有更优的搜索效率以及聚类精度.对国家信息数据进行了聚类分析,提出的方法更加准确有效合理,具有较好的应用价值.