期刊文献+
共找到12篇文章
< 1 >
每页显示 20 50 100
基于量子遗传算法的XML聚类方法 被引量:6
1
作者 蒋勇 谭怀亮 李光文 《计算机应用》 CSCD 北大核心 2011年第2期446-449,共4页
主要用模式分析的核方法与量子遗传算法相结合研究XML聚类,提出了一种基于量子遗传算法混合核聚算法的XML文档聚类新方法。该方法先对XML文档约简,以频繁标签序列建立向量空间核的核矩阵,用高斯核函数求解初始聚类和聚类中心,然后用初... 主要用模式分析的核方法与量子遗传算法相结合研究XML聚类,提出了一种基于量子遗传算法混合核聚算法的XML文档聚类新方法。该方法先对XML文档约简,以频繁标签序列建立向量空间核的核矩阵,用高斯核函数求解初始聚类和聚类中心,然后用初始聚类中心构造量子遗传算法的初始种群,通过量子遗传算法与核聚算法相结合求得全局最优解的聚类。实验结果表明,使用该算法的聚类比改进的核聚算法、K均值算法等单一方法具有良好的收敛性、稳定性和更高的全局最优。 展开更多
关键词 xml文档 高斯核函数 算法 量子遗传算法 xml聚类
下载PDF
XML聚类在少数民族节日文化挖掘中的应用 被引量:1
2
作者 任廷艳 罗刚 《软件导刊》 2015年第12期140-141,共2页
分析了少数民族节日文化挖掘的重要性,介绍了XML聚类的具体过程:XML模型表示、文档相似性计算、XML聚类、聚类性能评估。设计了少数民族节日的XML半结构化数据模型。提出了一种基于划分的XML聚类算法,实现了少数民族节日内涵的挖掘。
关键词 民族节日 xml挖掘 xml聚类
下载PDF
基于内容与结构语义相融合的XML检索结果聚类 被引量:5
3
作者 钟敏娟 《情报学报》 CSSCI 北大核心 2012年第5期515-525,共11页
检索结果聚类是提高检索性能的一种有效手段.其中,如何衡量文档间的相似性是影响聚类质量的关键因素.针对XML文档的内容和结构双重特性,提出了内容与结构语义相融合的扩展向量空间模型,并分析了影响相似性度量的各种特征,进而提出了内... 检索结果聚类是提高检索性能的一种有效手段.其中,如何衡量文档间的相似性是影响聚类质量的关键因素.针对XML文档的内容和结构双重特性,提出了内容与结构语义相融合的扩展向量空间模型,并分析了影响相似性度量的各种特征,进而提出了内容与结构语义相融合的XML语义相似性度量方法.同时,针对IEEE数据集无法提供每篇文档的类别信息,本文从相关文档的分布情况引入了相关簇率和相关文档分布率的概念来进行聚类质量评价.数据集IEEE CS上的实验表明,与同类相似性度量方法和传统方法相比,本文所提方法具有可行性和更好的聚类效果. 展开更多
关键词 xml聚类 标签权重 节点层次 相关簇率 相关文档分布率
下载PDF
基于加权余弦相似度的XML文档聚类研究 被引量:10
4
作者 李巍 孙涛 +2 位作者 陈建孝 罗梓恒 李雄飞 《吉林大学学报(信息科学版)》 CAS 2010年第1期68-76,共9页
在实际应用中,XML(eXtensible Markup Language)文档中的一些结构经常被改变。为了挖掘XML文档在历史变化过程中经常改变的结构所蕴含的知识,提出了发现频繁变化结构的方法。该方法用一组频繁变化结构组成的文档向量模型代表一个XML文档... 在实际应用中,XML(eXtensible Markup Language)文档中的一些结构经常被改变。为了挖掘XML文档在历史变化过程中经常改变的结构所蕴含的知识,提出了发现频繁变化结构的方法。该方法用一组频繁变化结构组成的文档向量模型代表一个XML文档,将频繁变化结构在簇中的出现比例作为权值,使用加权余弦相似度对XML文档进行聚类。经过实验分析,根据XML文档历史变化过程中的频繁变化结构能较好地将XML文档进行聚类。用加权余弦相似度对XML文档进行聚类,其聚类结果的正确率、召回率和簇内部距离均优于使用非加权余弦相似度对XML文档进行聚类得到的结果。 展开更多
关键词 xml文档 加权余弦相似度 频繁变化结构
下载PDF
基于簇核心的XML结构聚类方法 被引量:4
5
作者 张翀 唐九阳 +1 位作者 肖卫东 汤大权 《计算机研究与发展》 EI CSCD 北大核心 2011年第11期2161-2176,共16页
随着XML技术的不断应用和推广,XML结构聚类技术在XML管理与挖掘中扮演着重要角色.针对目前XML结构聚类算法聚类不准确、效率低、对数据输入次序敏感的不足,提出簇核心的概念,并指出在动态环境下,对簇核心加以正确维护可以支持增量式聚类... 随着XML技术的不断应用和推广,XML结构聚类技术在XML管理与挖掘中扮演着重要角色.针对目前XML结构聚类算法聚类不准确、效率低、对数据输入次序敏感的不足,提出簇核心的概念,并指出在动态环境下,对簇核心加以正确维护可以支持增量式聚类.在此基础上设计了一套有效的XML结构聚类算法COXClustering,该算法涵盖静态聚类和增量式聚类,静态聚类提取子树作为特征合理反映XML结构之间的相似性,并利用簇核心快速分类的特点提高聚类效率,利用簇核心正交的特点降低对数据输入次序的敏感性;增量式聚类根据当前增加的XML文档动态调整簇核心,从而自适应地指导增量式聚类.理论分析和实验表明该算法静态聚类效率高、聚类质量好、能够有效屏蔽输入次序的敏感性,增量式聚类将聚类速度大幅度提升,聚类质量接近静态聚类质量. 展开更多
关键词 xml结构 簇核心 特征关联度 输入次序敏感性 增量式
下载PDF
基于改进k-medoids算法的XML文档聚类 被引量:4
6
作者 冯少荣 潘炜炜 林子雨 《计算机工程》 CAS CSCD 北大核心 2015年第9期56-62,共7页
XML文档由于其自身的可扩展性、半结构化和自描述性等特点,已成为数据表示和交换的数据格式标准。一个高效、快速的XML文档聚类机制能够大幅缩短信息检索时间,提高数据查询的效率,挖掘出潜在的信息价值。为此,提出一种改进的k-medoids... XML文档由于其自身的可扩展性、半结构化和自描述性等特点,已成为数据表示和交换的数据格式标准。一个高效、快速的XML文档聚类机制能够大幅缩短信息检索时间,提高数据查询的效率,挖掘出潜在的信息价值。为此,提出一种改进的k-medoids算法对XML文档进行聚类。运用模糊聚类方法确定聚类个数,利用遗传算法的全局最优的搜索能力求解最佳聚类中心点或质心,从而提高大规模XML文档集的聚类质量。实验结果表明,与基于传统k-medoids算法的聚类方法相比,改进的聚类方法具有较高的聚类准确性和收敛度。 展开更多
关键词 xml文档 遗传算法 模糊 k-medoids 个数 中心
下载PDF
基于XML的检索结果聚类方法 被引量:5
7
作者 余宏 万常选 《计算机工程》 CAS CSCD 北大核心 2010年第1期85-86,90,共3页
针对XML文档的半结构化特点,提出一种建模XML检索结果片段的新思路,设计综合内容和结构语义信息度量相应文档相似性的方法,给出一种适应检索结果聚类应用需求的动态均值软聚类算法。实验表明,面向XML的检索结果聚类方法聚类效果优于传... 针对XML文档的半结构化特点,提出一种建模XML检索结果片段的新思路,设计综合内容和结构语义信息度量相应文档相似性的方法,给出一种适应检索结果聚类应用需求的动态均值软聚类算法。实验表明,面向XML的检索结果聚类方法聚类效果优于传统方法。 展开更多
关键词 xml检索结果 结构语义相似度 内容相似度 算法
下载PDF
基于检索结果聚类的XML伪相关文档查找 被引量:1
8
作者 钟敏娟 万常选 +1 位作者 刘德喜 廖述梅 《计算机科学》 CSCD 北大核心 2013年第10期172-177,共6页
传统伪相关反馈容易产生"查询主题漂移",有效避免"查询主题漂移"的首要前提是确定高质量的相关文档,形成与用户查询需求相关的伪相关文档集合。在检索结果聚类的基础上,研究了XML伪相关文档查找方法,在充分考虑XML... 传统伪相关反馈容易产生"查询主题漂移",有效避免"查询主题漂移"的首要前提是确定高质量的相关文档,形成与用户查询需求相关的伪相关文档集合。在检索结果聚类的基础上,研究了XML伪相关文档查找方法,在充分考虑XML内容和结构特征的前提下,提出了基于均衡化权值的簇标签提取方法,并以此为基础,提出了候选簇的排序模型和基于候选簇的文档排序模型。相关实验数据表明,与初始检索结果相比,排序模型获得了较好的性能,有效地查找到了更多的XML伪相关文档。 展开更多
关键词 信息检索 xml伪相关反馈 xml检索结果 簇标签 排序模型
下载PDF
基于DBSCAN算法的XML结构相似性聚类研究
9
作者 罗丹 刘先锋 《信息技术》 2009年第8期24-26,31,共4页
通过对XML结构聚类现状进行研究分析,提出了一种新的XML文档结构相似度度量方法DBTD(Density-Based of the Tree Distance),并在此基础上提出以基于密度的DBSCAN方法对XML文档进行结构聚类。实验表明:该方法能够对XML文档进行结构聚类,... 通过对XML结构聚类现状进行研究分析,提出了一种新的XML文档结构相似度度量方法DBTD(Density-Based of the Tree Distance),并在此基础上提出以基于密度的DBSCAN方法对XML文档进行结构聚类。实验表明:该方法能够对XML文档进行结构聚类,且其聚类结果充分展现了该方法的有效性。 展开更多
关键词 xml xml聚类 结构 相似度度量
下载PDF
基于频繁结构的XML文档聚类 被引量:1
10
作者 傅珊珊 吴扬扬 《计算机工程与应用》 CSCD 北大核心 2008年第9期135-138,171,共5页
研究基于频繁结构的XML文档聚类方法,其频繁结构包括频繁路径和频繁子树。首先介绍一种挖掘XML文档中所有嵌入频繁子树的算法SSTMiner,对SSTMiner算法进行修改,得到FrePathMiner算法和FreTreeMiner算法,分别用于挖掘XML文档中最大频繁... 研究基于频繁结构的XML文档聚类方法,其频繁结构包括频繁路径和频繁子树。首先介绍一种挖掘XML文档中所有嵌入频繁子树的算法SSTMiner,对SSTMiner算法进行修改,得到FrePathMiner算法和FreTreeMiner算法,分别用于挖掘XML文档中最大频繁路径和最大频繁子树,在此基础上,提出一种凝聚的层次聚类算法XMLCluster,分别以最大频繁路径和最大频繁子树作为XML文档的特征,对文档进行聚类。实验结果表明FrePathMiner算法和FreTreeMiner算法找到频繁结构的数量都比传统的ASPMiner算法多,这就可以为文档聚类提供更多的结构特征,从而获得更高的聚类精度。 展开更多
关键词 xml文档 最大频繁路径 最大频繁子树 层次
下载PDF
基于特征偏好的XML文档聚类算法
11
作者 王成勇 杜庆伟 +1 位作者 孙静 孙振 《计算机工程与应用》 CSCD 北大核心 2016年第12期64-68,共5页
XML文档聚类在众多数据应用领域都具有重要作用。基于特征偏好的XML文档聚类算法是对XML文档进行特征选择,将XML文档描述为n维特征向量,再结合CFP(Clustering with Feature order Preference)算法,根据特征偏好为其赋予权重,每次迭代聚... XML文档聚类在众多数据应用领域都具有重要作用。基于特征偏好的XML文档聚类算法是对XML文档进行特征选择,将XML文档描述为n维特征向量,再结合CFP(Clustering with Feature order Preference)算法,根据特征偏好为其赋予权重,每次迭代聚类过程中进行权重的更新。实验结果表明当CFP算法中的特征偏好权重和XML文档向量化时所用的层次权重设定相结合时,可弥补XML文档向量化时的弊端,提高了XML文档聚类的精度。 展开更多
关键词 可扩展标记语言(xml)文档 层次权重 特征偏好
下载PDF
基于BDB的XML检索引擎算法设计与实现
12
作者 杜鹏 《信息技术》 2014年第8期100-103,共4页
XML作为互联网数据交换及数据表现的标准,其重要性日益凸显,如何从大量的XML中挖掘有效信息已成为目前亟待解决的问题。设计并实现一个基于BDB的XML检索引擎算法XObject,通过构造关键词结构查询路径、进行结构聚类,并最终在BDB XML执行X... XML作为互联网数据交换及数据表现的标准,其重要性日益凸显,如何从大量的XML中挖掘有效信息已成为目前亟待解决的问题。设计并实现一个基于BDB的XML检索引擎算法XObject,通过构造关键词结构查询路径、进行结构聚类,并最终在BDB XML执行Xquery查询实现本地XML的关键字检索,从而解决XML信息挖掘中的关键技术课题——XML信息检索。 展开更多
关键词 BERKELEY DB xml结构 XObject
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部