期刊文献+
共找到44,739篇文章
< 1 2 250 >
每页显示 20 50 100
图书馆数字文本智能聚类个性化推荐应用研究
1
作者 江新姿 高尚 《无线互联科技》 2025年第2期107-111,120,共6页
Web 2.0信息时代,信息量迅速增加,信息检索速率却显著降低,如何提高信息的自动分类管理水平,从海量数据中高效、准确、快速获取有价值的信息与知识成为智慧图书馆亟待研究与解决的问题。文章提出了在数字图书馆服务中运用新型文本聚类... Web 2.0信息时代,信息量迅速增加,信息检索速率却显著降低,如何提高信息的自动分类管理水平,从海量数据中高效、准确、快速获取有价值的信息与知识成为智慧图书馆亟待研究与解决的问题。文章提出了在数字图书馆服务中运用新型文本聚类群智能分析方法。该算法通过改进文本间的语义相似度计算,融合K-means聚类算法与蚁群聚类算法(Ant Colony Optimization,ACO)的优点,在初始分类时将K-means聚类算法用作快速分类,用分类结果指导更新蚂蚁各途径信息素,指导蚂蚁后续聚类途径选择,提高聚类运行效率。该分析方法因为不需要类别的信息,能自动完成文本分组,所以可以更好地应用到图书馆资源的推荐与检索服务中。图书馆数字文本数据库实验证明,混合蚁群聚类算法比单独的K-means、ACO都具有更好的聚类效果,可以看出该算法的有效性。 展开更多
关键词 文本聚类 K-MEANS聚类 混合蚁群聚类算法 个性化推荐 语义相似度
下载PDF
基于聚类集成选择的随机森林聚类方法
2
作者 李金玉 刘静玮 +1 位作者 杜明晶 吴福玉 《计算机工程与设计》 北大核心 2025年第4期990-996,共7页
为解决一些决策树受到数据噪声等因素的影响,导致它们对随机森林聚类产生有限甚至负面贡献这一问题,提出一种基于聚类集成选择的随机森林聚类方法(random forest clustering method based on cluster ensemble selection,RFCCES)。将每... 为解决一些决策树受到数据噪声等因素的影响,导致它们对随机森林聚类产生有限甚至负面贡献这一问题,提出一种基于聚类集成选择的随机森林聚类方法(random forest clustering method based on cluster ensemble selection,RFCCES)。将每一棵决策树视为一个基聚类器,根据基聚类器集合的稳定和不稳定性设计两种不同的聚类集成选择方法,将评估单个决策树对随机森林的增益问题,转化为基聚类器对最终的聚类集成结果的增益问题。该算法与5种对比方法在10个数据集上进行比较,实验结果验证了RFCCES的独特优势和整体有效性。 展开更多
关键词 随机森林 聚类 决策树 稳定性 聚类集成 聚类 聚类集成选择
下载PDF
基于自编码器及对比损失的图聚类方法
3
作者 王静红 王慧 袁绰 《南京师大学报(自然科学版)》 北大核心 2025年第1期75-84,共10页
图聚类根据图数据的内在关系找到组或社区,是数据分析中一项重要的研究问题.近年来,基于自编码器的方法能够获得有效节点属性表示,但未融合结构信息.由于图神经网络的广泛应用,基于半监督图卷积网络和图自编码器的模型能够融合结构信息... 图聚类根据图数据的内在关系找到组或社区,是数据分析中一项重要的研究问题.近年来,基于自编码器的方法能够获得有效节点属性表示,但未融合结构信息.由于图神经网络的广泛应用,基于半监督图卷积网络和图自编码器的模型能够融合结构信息,与传统聚类方法相比取得了较好的效果,但标记数据和卷积操作代价昂贵.因此,本文提出了一种基于自编码器及对比损失的图聚类方法.首先该方法使用简单的多层感知器设计自编码器,预训练自编码器学习节点属性表示.其次结合影响对比损失学习图嵌入表示,融合丰富的图结构信息,然后同时迭代优化嵌入表示和自监督聚类任务.最后,使用多个引文网络数据集与基准模型进行对比实验.实验表明,聚类性能得到有效提升,并且参数敏感性分析和变体实验验证了影响对比损失和自监督聚类的有效性. 展开更多
关键词 聚类 自编码器 影响对比损失 图嵌入 自监督聚类
下载PDF
改进模糊聚类语义分割声环境功能区划图
4
作者 曾宇 姚琨 秦勤 《噪声与振动控制》 北大核心 2025年第2期210-215,共6页
声环境功能区划多采用地理信息系统进行研究,但公开发布的声环境功能区划方案中的文字和图片无法直接用于地理信息系统分析。首先提出改进模糊C均值聚类超像素方法,对声环境功能区划图进行语义分割以获取声功能区信息。接着采用简单线... 声环境功能区划多采用地理信息系统进行研究,但公开发布的声环境功能区划方案中的文字和图片无法直接用于地理信息系统分析。首先提出改进模糊C均值聚类超像素方法,对声环境功能区划图进行语义分割以获取声功能区信息。接着采用简单线性迭代聚类构建超像素,提取声环境功能区划图特征矩阵,基于K-means++改进模糊C均值聚类算法,语义分割超像素粒化的声环境功能区划图,并以声功能区面积占比计算结果偏差为评价指标,分析超像素尺度对分割结果的影响。然后基于不同图像特征矩阵构建方法和聚类中心初始化方法,使用模糊C均值聚类、高斯混合模型聚类、K-medoids聚类语义分割声环境功能区划图,最后比较不同组合方案的声功能区面积占比计算结果偏差,验证方法的有效性。 展开更多
关键词 声学 声环境功能区划图 彩色图像分割 模糊C均值聚类 简单线性迭代聚类 K-means++算法
下载PDF
基于网格聚类的5G网络精准规划方法研究
5
作者 卢善勇 许景渊 《中国宽带》 2025年第3期16-18,共3页
在5G网络规划中,网格数据分布极不均匀,某些区域密集分布大量数据点,而其他区域数据点稀疏或缺失,显著影响网格规划效果。针对这一问题,提出基于网格聚类的精准规划方法。该方法通过定义网格单元结构,基于数据点分布密度进行网格排序,结... 在5G网络规划中,网格数据分布极不均匀,某些区域密集分布大量数据点,而其他区域数据点稀疏或缺失,显著影响网格规划效果。针对这一问题,提出基于网格聚类的精准规划方法。该方法通过定义网格单元结构,基于数据点分布密度进行网格排序,结合K-means++聚类算法自适应识别高密度区域。采用改进的密度峰值聚类方法动态优化网格边界,实现网格的自适应划分。实验结果显示,该方法在F-measure指标上达到97%以上,聚类区域与实际区域的交并比超过0.96,能够有效提升5G网络规划的精度以及效率。 展开更多
关键词 5G网络规划 网格聚类 K-means++ 密度峰值聚类 精准规划
下载PDF
改进灰色聚类的通信网络信息冗余特征消减方法
6
作者 刘忠铁 《电子设计工程》 2025年第6期145-148,154,共5页
由于通信网络信息存在异常值敏感局限性问题,容易出现冗余特征过分消减或无法完整消减的问题。为此,提出改进灰色聚类方法消减通信网络信息冗余特征。利用熵权法对信息无纲量化处理,克服异常值敏感性的局限,辨识冗余特征。构建三角白化... 由于通信网络信息存在异常值敏感局限性问题,容易出现冗余特征过分消减或无法完整消减的问题。为此,提出改进灰色聚类方法消减通信网络信息冗余特征。利用熵权法对信息无纲量化处理,克服异常值敏感性的局限,辨识冗余特征。构建三角白化权函数改进灰色聚类算法,计算聚类系数,考虑不同信息特征的影响,采用线性变换归一化方法降维处理冗余特征。结合改进灰色聚类算法聚类低维度冗余特征,设定消减阈值,通过与阈值对比完成网络信息冗余特征消减。由实验结果可知,该方法在不同环境下均能高效消减冗余特征,且误差控制在2 GB以内。 展开更多
关键词 改进灰色聚类 通信网络信息 冗余特征 消减 灰色聚类系数
下载PDF
基于小波特征聚类处理纹理和光照的图像二值化方法
7
作者 万长林 《物联网技术》 2025年第3期116-119,共4页
文中提出了一种新的基于小波特征聚类的图像二值化方法,它能有效地解决传统图像二值化方法受纹理和光照变化干扰较大的问题。文章首先分析了现有图像二值化方法的优缺点,提出结合小波变换和拉普拉斯-高斯变换来提取纹理特征,将它们作为... 文中提出了一种新的基于小波特征聚类的图像二值化方法,它能有效地解决传统图像二值化方法受纹理和光照变化干扰较大的问题。文章首先分析了现有图像二值化方法的优缺点,提出结合小波变换和拉普拉斯-高斯变换来提取纹理特征,将它们作为像素聚类的输入向量,以达到更好的二值化效果。此外,通过采样输入来代替完整的输入,显著提升了算法的计算效率,同时也降低了图像中极端变化区域对整体二值化效果的影响。经过实验验证,所提出的方法运行速度较快;在保留原始图像信息的同时,能较好地处理纹理和光照信息。与参考基准方法相比,该方法峰值信噪比较高,并且视觉效果有显著的提升。 展开更多
关键词 图像二值化 小波滤波器 小波特征聚类 拉普拉斯-高斯滤波器 纹理特征 K-MEANS聚类
下载PDF
基于MapReduce的分类数据增量子空间聚类研究
8
作者 庞宁 《西南民族大学学报(自然科学版)》 2025年第1期71-76,共6页
基于细粒度属性子空间构建方法提出一种适用于分类数据的并行增量聚类算法SUC,该算法采用属性值-簇相似度度量方法,强化重要属性值对于类簇紧凑程度的正向影响力;在增量聚类阶段,更新属性权值,迭代形成增量类簇;采用MapReduce编程框架,... 基于细粒度属性子空间构建方法提出一种适用于分类数据的并行增量聚类算法SUC,该算法采用属性值-簇相似度度量方法,强化重要属性值对于类簇紧凑程度的正向影响力;在增量聚类阶段,更新属性权值,迭代形成增量类簇;采用MapReduce编程框架,实现算法SUC两阶段的并行化.在人工合成数据集、UCI数据集和真实数据集上,实验验证了算法的准确性、有效性和可扩展性. 展开更多
关键词 增量子空间聚类 细粒度属性权重 MapReduce聚类 数据
下载PDF
基于图书共借关系的读者聚类算法
9
作者 廖兴思 《中国新技术新产品》 2025年第3期39-42,共4页
发现具有相似借阅倾向的读者群体,并针对不同群体进行个性化读者服务,能够有效提升高校图书馆的读者服务质量,促进高校师生学习和科研进步。首先,本文设计了基于图书共借关系的读者聚类算法框架,讨论了算法中的读者距离定义、簇间距离... 发现具有相似借阅倾向的读者群体,并针对不同群体进行个性化读者服务,能够有效提升高校图书馆的读者服务质量,促进高校师生学习和科研进步。首先,本文设计了基于图书共借关系的读者聚类算法框架,讨论了算法中的读者距离定义、簇间距离选取和停机条件3个关键设计。其次,本文介绍了算法实现,包括如何基于图书馆的数据库系统高效计算读者距离,如何利用scipy程序库实现读者凝聚层次聚类算法。最后,在某高校图书馆图书外借数据集上进行验证。结果表明,该算法能够有效发现高校中具有相似借阅倾向的读者群,优于传统的根据读者类型和所属院系的读者群体划分方法。 展开更多
关键词 数据挖掘 聚类算法 层次聚类 高校图书馆 读者服务 个性化服务 读者聚类
下载PDF
依托词汇聚类提升高中生英语词汇记忆效果的路径
10
作者 马雪芳 《英语教师》 2025年第2期94-97,共4页
分析高中生英语词汇记忆存在的问题,即词汇量积累缓慢,遗忘率高;记忆方法单一,缺乏趣味性;应用实践少,脱离语境学习。聚焦词汇聚类理念,以北师大版高中《英语》必修一Unit 2 Sports And Fitness Lesson 3 Running And Fitness一课的词... 分析高中生英语词汇记忆存在的问题,即词汇量积累缓慢,遗忘率高;记忆方法单一,缺乏趣味性;应用实践少,脱离语境学习。聚焦词汇聚类理念,以北师大版高中《英语》必修一Unit 2 Sports And Fitness Lesson 3 Running And Fitness一课的词汇记忆为例,重点探讨词汇聚类的应用优势和路径。通过深入分析语义聚类、主题聚类及重要性聚类的特别应用,旨在揭示词汇聚类在提高记忆效率、攻克学习难点方面的积极作用,为高中英语词汇教学提供新视角和实操指导,力求在日常教学实践中取得实质性成效。 展开更多
关键词 词汇聚类 高中英语 主题聚类 语义聚类 记忆效果
下载PDF
路径掩码自编码器引导无监督属性图节点聚类
11
作者 丁新宇 孔兵 +2 位作者 陈红梅 包崇明 周丽华 《计算机科学》 北大核心 2025年第1期160-169,共10页
图聚类的目的在于发现网络的社区结构。针对目前聚类方法无法很好地获取网络深层潜在社区信息,且不能对特征进行合适的信息整合导致节点社区语义不清晰的问题,提出了一种路径掩码自编码器引导无监督属性图节点聚类模型(Path-Masked Auto... 图聚类的目的在于发现网络的社区结构。针对目前聚类方法无法很好地获取网络深层潜在社区信息,且不能对特征进行合适的信息整合导致节点社区语义不清晰的问题,提出了一种路径掩码自编码器引导无监督属性图节点聚类模型(Path-Masked Autoencoder Guiding Unsupervised Attribute Graph Node Clustering, PAUGC)。该模型通过对网络进行随机路径掩码后使用自编码器来深度挖掘网络拓扑结构,从而获得良好的全局结构语义信息,利用规范性方法来对特征进行信息整合,使节点特征能够更好地表征特征的类别信息。此外,模型结合模块最大化来抓取整个图中的底层社区群落信息,目的在于更合理地将其融合到低维度节点特征中。最后通过自训练聚类来不断迭代优化更新聚类表示以获得最终的节点特征。通过在8个基准数据集上与11种经典方法进行大量实验对比,证明了PAUGC的有效性。 展开更多
关键词 深度图聚类 无监督学习 特征信息整合 模块最大化 聚类自训练
下载PDF
融合变异萤火虫算法的三支聚类方法
12
作者 李兆彬 叶军 +2 位作者 周浩岩 汪一心 韩宇贞 《系统仿真学报》 北大核心 2025年第3期646-656,共11页
为解决三支聚类算法随机选取初始聚类中心会导致算法出现早熟现象,以及q近邻概念中q的取值需要通过不断重复实验得到等问题,提出一种变异萤火虫优化的三支聚类算法。通过萤火虫算法来解决初始中心点敏感的问题,以目标函数值作为萤火虫... 为解决三支聚类算法随机选取初始聚类中心会导致算法出现早熟现象,以及q近邻概念中q的取值需要通过不断重复实验得到等问题,提出一种变异萤火虫优化的三支聚类算法。通过萤火虫算法来解决初始中心点敏感的问题,以目标函数值作为萤火虫光亮强度进行聚类中心点的搜索,将求得的最优解作为算法的聚类中心进行迭代;提出边界域归属度公式以及自适应阈值,使得边界域中样本满足阈值条件情况下尽可能地划分到核心域当中,避免了边界域样本过多的问题。通过UCI数据集实验结果表明:改进后的算法大幅降低了迭代次数,提高了聚类结果准确率,也验证了该算法的稳定性和有效性。 展开更多
关键词 聚类算法 K-MEANS聚类 三支决策 萤火虫算法 变异策略
原文传递
基于加权锚点的自适应多视图互补聚类算法
13
作者 区卓越 邓秀勤 陈磊 《计算机应用》 北大核心 2025年第1期115-126,共12页
在多视图聚类问题中,充分挖掘各视图间的关联信息,并降低冗余信息对聚类效果的影响是当前亟须解决的问题,但现有算法会忽略各视图间的互补性及差异性,或没有考虑冗余信息带来的干扰,从而导致聚类效果不佳。针对这些局限性,提出一种基于... 在多视图聚类问题中,充分挖掘各视图间的关联信息,并降低冗余信息对聚类效果的影响是当前亟须解决的问题,但现有算法会忽略各视图间的互补性及差异性,或没有考虑冗余信息带来的干扰,从而导致聚类效果不佳。针对这些局限性,提出一种基于加权锚点的自适应多视图互补聚类算法(SMCWA)。在应对高维多视图数据的挑战时,首先,将特征直连迁移至锚点机制,从而融合各锚图来利用视图间的互补性信息;其次,在迭代过程中,使用加权矩阵动态确定各锚点的权重,从而弱化冗余信息的表达;最后,使用自动权重机制为各视图自适应地分配适当的权重,以利用视图间的差异性。将上述优化步骤整合至同一算法中,使视图互补性、冗余信息的弱化以及视图差异性在多步迭代中相互促进、相互学习,进而提高聚类效果。实验结果表明,在BDGP(Berkeley Drosophila Genome Project)数据集上,SMCWA在马修斯相关系数(MCC)上较谱聚类算法SC-Concat提升了41.75%;在CCV(Columbia Consumer Video)数据集上,SMCWA在MCC上较大规模线性时间多视图子空间聚类(LMVSC)算法提升了11.83%;在Caltech101-all数据集上,SMCWA在MCC上较谱聚类算法SC-Best提升了19.57%,说明该算法可充分考虑视图间的互补性信息、视图间的差异和冗余信息来提高聚类效果。 展开更多
关键词 自动权重机制 互补性 锚点机制 子空间聚类 多视图聚类
下载PDF
满足本地差分隐私的混合噪音感知的模糊C均值聚类算法
14
作者 张朋飞 程俊 +4 位作者 张治坤 方贤进 孙笠 王杰 姜茸 《电子与信息学报》 北大核心 2025年第3期739-757,共19页
在大数据和物联网应用中,本地差分隐私(LDP)技术用于保护聚类分析中的用户隐私,但现有方法要么在LDP下交互式地进行聚类,需要消耗大量隐私预算,要么没有同时考虑到聚类数据中蕴含的表示数据质量的高斯噪音以及为满足LDP保护的拉普拉斯噪... 在大数据和物联网应用中,本地差分隐私(LDP)技术用于保护聚类分析中的用户隐私,但现有方法要么在LDP下交互式地进行聚类,需要消耗大量隐私预算,要么没有同时考虑到聚类数据中蕴含的表示数据质量的高斯噪音以及为满足LDP保护的拉普拉斯噪音,致使聚类精度低下。同时,对于衡量用户提交数据和簇心之间的距离选择较为武断,没有充分利用到用户提交的噪音数据中蕴含的噪音模式。为此,该文创新性地提出一种满足LDP的混合噪音感知的模糊C均值聚类算法(mnFCM),该算法的主要思想是同时建模用户上传数据中蕴含的表示用户质量的高斯噪音以及为保护用户数据注入的拉普拉斯噪音,进而设计出混合噪音感知的距离替代传统的欧式距离,来衡量样本数据与簇心间的相似性。特别地,在mnFCM中,该文首先设计了混合噪音感知的距离计算方法,在此基础上给出算法新的目标函数,并基于拉格朗日乘子法设计了求解方法,最后理论上分析了求解算法的收敛性。该文进一步理论分析了mnFCM的隐私、效用和复杂度,分析结果表明所提算法严格满足LDP、相对于对比算法更接近非隐私下的簇心以及和非隐私算法具有接近的复杂度。在两个真实数据集上的实验结果表明,mnFCM在满足LDP下,聚类精度提高了10%~15%。 展开更多
关键词 聚类分析 隐私保护 本地差分隐私 模糊C均值聚类 拉普拉斯机制
下载PDF
基于先验聚类的机电设备环境参数异常检测算法
15
作者 邢鹏 李新娥 《现代电子技术》 北大核心 2025年第6期78-84,共7页
传统的聚类异常数据检测算法在处理高维度、大数据量且异常值分布杂乱的机电设备环境参数时,存在聚类效果差和检测效率低的问题。为此,在原有异常检测算法的基础上提出一种基于先验聚类的机电设备环境参数异常检测算法。该算法改用历史... 传统的聚类异常数据检测算法在处理高维度、大数据量且异常值分布杂乱的机电设备环境参数时,存在聚类效果差和检测效率低的问题。为此,在原有异常检测算法的基础上提出一种基于先验聚类的机电设备环境参数异常检测算法。该算法改用历史数据构建先验聚类,确保聚类构建不会受太多异常环境参数所影响;在选取聚类中心时引入密集度的概念,以确保聚类中心的可靠性,并在选取聚类中心过程中去除已选聚类中心周围的数据点,防止选取的聚类中心集中在某一区域,以此提升聚类效果。进行异常检测时,依次将待检测数据放入先验聚类中进行匹配,一旦测试数据无法匹配任何一个已知聚类,则将其标记为异常数据。实验结果表明:所提算法在机电设备环境参数的异常检测方面具有检测率高、误报率低的特点,在2000例数据异常检测中,其检测准确率达到了97.5%,优于DBSCAN算法的97%以及基础K-means算法的86%;同时,误检率低至0.0106,优于DBSCAN算法的0.0239和基础K-means算法的0.0228。改进后的模型较基础K-means算法和DBSCAN算法在机电设备环境参数异常检测中检测效果更佳,在机电设备环境异常数据检测上具有良好的性能。 展开更多
关键词 机电设备 环境参数 异常数据检测 先验聚类 K-means算法 密集度 聚类匹配
下载PDF
自适应张量奇异值收缩的多视角聚类
16
作者 钱罗雄 陈梅 +2 位作者 马学艳 张弛 张锦宏 《计算机研究与发展》 北大核心 2025年第3期733-750,共18页
现有多视角聚类算法存在:1)在学习低维表征的过程中无法准确捕获或忽略嵌入在多视角数据中的高阶信息和互补信息;2)未能准确捕获数据局部信息;3)信息捕获方法缺少对噪声点鲁棒性等问题.为解决上述问题,提出一种自适应张量奇异值收缩的... 现有多视角聚类算法存在:1)在学习低维表征的过程中无法准确捕获或忽略嵌入在多视角数据中的高阶信息和互补信息;2)未能准确捕获数据局部信息;3)信息捕获方法缺少对噪声点鲁棒性等问题.为解决上述问题,提出一种自适应张量奇异值收缩的多视角聚类(multi-view clustering based on adaptive tensor singular value shrinkage,ATSVS)算法.ATSVS首先提出一种符合秩特性的张量对数行列式函数对表示张量施加低秩约束,在张量奇异值分解(tensor singular value decomposition,t-SVD)过程中能够根据奇异值自身大小进行自适应收缩,更加准确地进行张量秩估计,进而从全局角度精准捕获多视角数据的高阶信息和互补信息.然后采用一种结合稀疏表示和流形正则技术优势的l_(1,2)范数捕获数据的局部信息,并结合l_(2,1)范数对噪声施加稀疏约束,提升算法对噪声点的鲁棒性.与11个对比算法在9个数据集上的实验结果显示,ATSVS的聚类性能均优于其他对比算法.因此,ATSVS是一个能够有效处理多视角数据聚类任务的优秀算法. 展开更多
关键词 张量表示 聚类 低秩约束 多视角聚类 奇异值分解
下载PDF
多元时间序列聚类算法综述
17
作者 郑德生 孙涵明 +2 位作者 王立远 段垚鑫 李晓瑜 《计算机科学与探索》 北大核心 2025年第3期582-601,共20页
多元时间序列(MTS)作为众多领域智能化技术的关键数据依据,其随时间推移记录了系统中多个变量的状态变化。聚类技术作为一个数据挖掘核心工具可以将数据按照其结构相似性划分为不同的簇,通过识别数据的结构和内在关系挖掘系统发展规律... 多元时间序列(MTS)作为众多领域智能化技术的关键数据依据,其随时间推移记录了系统中多个变量的状态变化。聚类技术作为一个数据挖掘核心工具可以将数据按照其结构相似性划分为不同的簇,通过识别数据的结构和内在关系挖掘系统发展规律和变量相关关系。面对多元时间序列数据结构的复杂性、变量之间的关联性以及数据高维性等为聚类分析带来的挑战,国内外已经开展了大量相关研究工作。鉴于此,对多元时间序列数据场景下的聚类分析算法进行综述。基于特征提取方式、相似性度量算法、聚类划分框架等分类标准,对现有多元时间序列聚类算法进行对比分析。对于每一类多元时间序列聚类技术,从算法原理、代表性方法、算法优缺点以及解决的问题等方面进行详细总结与剖析。进一步讨论了常用的评价标准,以及多元时间序列聚类相关公开数据集。从多变量时序数据结构特殊性出发对现有多元时间序列聚类存在的挑战及未来发展方向进行了总结与展望。 展开更多
关键词 多元时间序列 聚类算法 特征表示 相似性度量 聚类评估指标
下载PDF
基于节点抽样的分布式二阶段聚类方法
18
作者 张曼静 何玉林 +1 位作者 李旭 黄哲学 《计算机科学》 北大核心 2025年第2期134-144,共11页
针对大数据聚类中存在的计算资源消耗大、聚类效率低的问题,提出了一种新的基于节点抽样的分布式二阶段聚类方法。该方法首先在各个本地节点对节点上的数据执行局部聚类操作,并基于局部聚类结果,从每个节点中抽取代表性的数据样本,然后... 针对大数据聚类中存在的计算资源消耗大、聚类效率低的问题,提出了一种新的基于节点抽样的分布式二阶段聚类方法。该方法首先在各个本地节点对节点上的数据执行局部聚类操作,并基于局部聚类结果,从每个节点中抽取代表性的数据样本,然后将各节点选定的样本数据传输至中央节点。之后,在中央节点上,对合并的样本数据进行进一步的聚类分析,并将样本聚类的结果传回各个本地节点。最后,各本地节点结合自身的局部聚类结果和中央节点的样本聚类结果,完成最终的聚类标签统一。通过以上流程,所提方法实现了对集中式聚类算法的分布式改造,能够快速一致地完成对全局数据的聚类分析。理论分析和数值实验均表明,与传统的全量数据集中式聚类方法相比,二阶段聚类方法有效地结合了并行处理的高效性和集成分析的准确性,在保证聚类质量的前提下能够显著降低计算资源的消耗,是一种可行的大数据聚类分布式解决方案。 展开更多
关键词 大数据聚类 分布式计算 节点抽样 并行计算 二阶段聚类
下载PDF
基于自然邻域图划分的层次聚类算法
19
作者 蔡发鹏 冯骥 +1 位作者 杨德刚 陈仲尚 《计算机工程与科学》 北大核心 2025年第2期370-380,共11页
自然邻域图能自适应地识别不同形状、大小和维度的数据,但在面对密度不均匀且结构复杂的数据时,部分小簇无法被算法正确识别。针对这一问题,提出一种基于自然邻域图划分的层次聚类算法HC-PNNG。HC-PNNG算法首先利用自然邻居关系实现了... 自然邻域图能自适应地识别不同形状、大小和维度的数据,但在面对密度不均匀且结构复杂的数据时,部分小簇无法被算法正确识别。针对这一问题,提出一种基于自然邻域图划分的层次聚类算法HC-PNNG。HC-PNNG算法首先利用自然邻居关系实现了自然稀疏图的构建,随后利用基于自然稀疏图的图间相似度完成了自然稀疏图的层次化合并,进而实现了更具普适性的层次化聚类结果。在合成数据集和真实数据集上将HC-PNNG与最新的聚类算法进行了对比实验,结果表明该算法明显优于其他聚类算法,验证了HC-PNNG算法的有效性。 展开更多
关键词 聚类分析 层次聚类 自然邻域图 图划分 相似度
下载PDF
一种基于核数据变换方法的遥感图像谱聚类算法
20
作者 赵海军 陈华月 崔梦天 《林业工程学报》 北大核心 2025年第2期130-137,共8页
随着遥感图像在各行各业的日益广泛应用,遥感图像的处理变得愈来愈重要。为了实现谱聚类算法应用于林业工程中的遥感图像处理,本研究提出了一种基于核数据变换和角距离度量的谱聚类新算法。首先,通过对基于多变量核特征提取的一般核熵... 随着遥感图像在各行各业的日益广泛应用,遥感图像的处理变得愈来愈重要。为了实现谱聚类算法应用于林业工程中的遥感图像处理,本研究提出了一种基于核数据变换和角距离度量的谱聚类新算法。首先,通过对基于多变量核特征提取的一般核熵成分分析法的分析,并运用信息论概念和核密度估计密切相关的瑞利二次熵,提出了最佳特征提取和无监督降维方法,即最佳核熵成分分析法。它根据类或聚类信息方面的数据结构,采用一个额外的旋转,使得成分之间的独立性最大化;在这些成分中最佳地捕捉数据的高信息势部分,直接找到关于保留成分的数量的最大化信息势的基,以确保得到的解比标准的核熵成分分析得到的解保留更多(或相等)的信息势;并提出了采用梯度上升法来求解最佳核熵成分分析优化问题,具体实现是采用了一种简单的提前终止方案,以确保梯度达到一个额外迭代不会显著修改成本函数的区域。其次,通过对最佳核熵成分分析变换和样本外扩展的分析,构建了一种基于角距离度量的谱聚类算法,它采用角距离度量的核k-均值聚类目标,而不是采用基于欧氏距离的度量。优化过程采用最佳核熵成分分析空间中的角距离,以保证收敛到局部最优,从而实现图像的聚类。采用多光谱卫星图像的实验结果表明,本研究提出的谱聚类算法不仅适用于遥感图像的云筛选问题,而且相比目前其他先进的聚类算法有更好的分类性能。 展开更多
关键词 遥感图像 非线性特征提取 概率密度函数 K-均值 瑞利熵 聚类
下载PDF
上一页 1 2 250 下一页 到第
使用帮助 返回顶部