题名 基于量子遗传算法的XML聚类方法
被引量:6
1
作者
蒋勇
谭怀亮
李光文
机构
湖南化工职业技术学院信息工程系
湖南大学计算机与通信学院
出处
《计算机应用》
CSCD
北大核心
2011年第2期446-449,共4页
基金
教育部博士点基金资助项目(200805321029)
文摘
主要用模式分析的核方法与量子遗传算法相结合研究XML聚类,提出了一种基于量子遗传算法混合核聚算法的XML文档聚类新方法。该方法先对XML文档约简,以频繁标签序列建立向量空间核的核矩阵,用高斯核函数求解初始聚类和聚类中心,然后用初始聚类中心构造量子遗传算法的初始种群,通过量子遗传算法与核聚算法相结合求得全局最优解的聚类。实验结果表明,使用该算法的聚类比改进的核聚算法、K均值算法等单一方法具有良好的收敛性、稳定性和更高的全局最优。
关键词
xml 文档
高斯核函数
核聚 类 算法
量子遗传算法
xml聚类
Keywords
xml document
Guassian kernel function
kernel clustering algorithm
quantum genetic algorithm
xml clustering
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
题名 XML聚类在少数民族节日文化挖掘中的应用
被引量:1
2
作者
任廷艳
罗刚
机构
黔南民族师范学院计算机科学系
地方民族文化数字化工程研究中心
出处
《软件导刊》
2015年第12期140-141,共2页
基金
黔南民族师范学院2013年度地方特色研究项目(qnsy2013T05)
贵州省科学技术基金项目(黔科合LH字[2014]7438)
文摘
分析了少数民族节日文化挖掘的重要性,介绍了XML聚类的具体过程:XML模型表示、文档相似性计算、XML聚类、聚类性能评估。设计了少数民族节日的XML半结构化数据模型。提出了一种基于划分的XML聚类算法,实现了少数民族节日内涵的挖掘。
关键词
民族节日
xml 挖掘
xml聚类
分类号
TP319
[自动化与计算机技术—计算机软件与理论]
题名 基于内容与结构语义相融合的XML检索结果聚类
被引量:5
3
作者
钟敏娟
机构
江西财经大学信息管理学院
江西财经大学数据与知识工程江西省高校重点实验室
出处
《情报学报》
CSSCI
北大核心
2012年第5期515-525,共11页
基金
国家自然科学基金项目(60763001,60803105),国家社会科学基金项目(07BTQ025),江西省教育厅科技项目重点项目(GJJ08506,GJJ08507,GJJ09649).
文摘
检索结果聚类是提高检索性能的一种有效手段.其中,如何衡量文档间的相似性是影响聚类质量的关键因素.针对XML文档的内容和结构双重特性,提出了内容与结构语义相融合的扩展向量空间模型,并分析了影响相似性度量的各种特征,进而提出了内容与结构语义相融合的XML语义相似性度量方法.同时,针对IEEE数据集无法提供每篇文档的类别信息,本文从相关文档的分布情况引入了相关簇率和相关文档分布率的概念来进行聚类质量评价.数据集IEEE CS上的实验表明,与同类相似性度量方法和传统方法相比,本文所提方法具有可行性和更好的聚类效果.
关键词
xml聚类
标签权重
节点层次
相关簇率
相关文档分布率
Keywords
xml clustering, tag weight, node level, relevant cluster ratio, relevant document distribution ratio
分类号
TP311.132
[自动化与计算机技术—计算机软件与理论]
题名 基于加权余弦相似度的XML文档聚类研究
被引量:10
4
作者
李巍
孙涛
陈建孝
罗梓恒
李雄飞
机构
吉林大学计算机科学与技术学院
韩山师范学院数学与信息技术系
出处
《吉林大学学报(信息科学版)》
CAS
2010年第1期68-76,共9页
基金
吉林省科技发展计划基金资助项目(20090704)
文摘
在实际应用中,XML(eXtensible Markup Language)文档中的一些结构经常被改变。为了挖掘XML文档在历史变化过程中经常改变的结构所蕴含的知识,提出了发现频繁变化结构的方法。该方法用一组频繁变化结构组成的文档向量模型代表一个XML文档,将频繁变化结构在簇中的出现比例作为权值,使用加权余弦相似度对XML文档进行聚类。经过实验分析,根据XML文档历史变化过程中的频繁变化结构能较好地将XML文档进行聚类。用加权余弦相似度对XML文档进行聚类,其聚类结果的正确率、召回率和簇内部距离均优于使用非加权余弦相似度对XML文档进行聚类得到的结果。
关键词
xml 文档聚 类
加权余弦相似度
频繁变化结构
Keywords
xml document clustering
weighted cosine similarity
frequently changing structures
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
题名 基于簇核心的XML结构聚类方法
被引量:4
5
作者
张翀
唐九阳
肖卫东
汤大权
机构
国防科学技术大学信息系统工程重点实验室
出处
《计算机研究与发展》
EI
CSCD
北大核心
2011年第11期2161-2176,共16页
基金
国家自然科学基金项目(60172012)
文摘
随着XML技术的不断应用和推广,XML结构聚类技术在XML管理与挖掘中扮演着重要角色.针对目前XML结构聚类算法聚类不准确、效率低、对数据输入次序敏感的不足,提出簇核心的概念,并指出在动态环境下,对簇核心加以正确维护可以支持增量式聚类.在此基础上设计了一套有效的XML结构聚类算法COXClustering,该算法涵盖静态聚类和增量式聚类,静态聚类提取子树作为特征合理反映XML结构之间的相似性,并利用簇核心快速分类的特点提高聚类效率,利用簇核心正交的特点降低对数据输入次序的敏感性;增量式聚类根据当前增加的XML文档动态调整簇核心,从而自适应地指导增量式聚类.理论分析和实验表明该算法静态聚类效率高、聚类质量好、能够有效屏蔽输入次序的敏感性,增量式聚类将聚类速度大幅度提升,聚类质量接近静态聚类质量.
关键词
xml 结构聚 类
簇核心
特征关联度
输入次序敏感性
增量式聚 类
Keywords
xml structural clustering
cluster-core
feature association degree
sensitivity of inputorder
incremental clustering
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 基于改进k-medoids算法的XML文档聚类
被引量:4
6
作者
冯少荣
潘炜炜
林子雨
机构
厦门大学信息科学与技术学院
出处
《计算机工程》
CAS
CSCD
北大核心
2015年第9期56-62,共7页
基金
国家自然科学基金资助项目(61303004)
国家社会科学基金资助重大项目(13&ZD148)
福建省自然科学基金资助项目(2013J05099)
文摘
XML文档由于其自身的可扩展性、半结构化和自描述性等特点,已成为数据表示和交换的数据格式标准。一个高效、快速的XML文档聚类机制能够大幅缩短信息检索时间,提高数据查询的效率,挖掘出潜在的信息价值。为此,提出一种改进的k-medoids算法对XML文档进行聚类。运用模糊聚类方法确定聚类个数,利用遗传算法的全局最优的搜索能力求解最佳聚类中心点或质心,从而提高大规模XML文档集的聚类质量。实验结果表明,与基于传统k-medoids算法的聚类方法相比,改进的聚类方法具有较高的聚类准确性和收敛度。
关键词
xml 文档聚 类
遗传算法
模糊聚 类
k-medoids聚 类
聚 类 个数
聚 类 中心
Keywords
xml documents clustering
Genetic Algorithm(GA)
fuzzy clustering
k-medoids clustering
clusteringnumber
clustering center
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
题名 基于XML的检索结果聚类方法
被引量:5
7
作者
余宏
万常选
机构
南昌师范高等专科学校信息中心
江西财经大学信息管理学院
出处
《计算机工程》
CAS
CSCD
北大核心
2010年第1期85-86,90,共3页
基金
国家自然科学基金资助项目(60763001)
国家社会科学基金资助项目(07BTQ025)
文摘
针对XML文档的半结构化特点,提出一种建模XML检索结果片段的新思路,设计综合内容和结构语义信息度量相应文档相似性的方法,给出一种适应检索结果聚类应用需求的动态均值软聚类算法。实验表明,面向XML的检索结果聚类方法聚类效果优于传统方法。
关键词
xml 检索结果聚 类
结构语义相似度
内容相似度
聚 类 算法
Keywords
xml retrieval result clustering
structure semantic similarity
content similarity
clustering algorithm
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
题名 基于检索结果聚类的XML伪相关文档查找
被引量:1
8
作者
钟敏娟
万常选
刘德喜
廖述梅
机构
江西财经大学信息管理学院
江西财经大学数据与知识工程江西省高校重点实验室
出处
《计算机科学》
CSCD
北大核心
2013年第10期172-177,共6页
基金
国家自然基金项目(61173146
61262035
+1 种基金
60763001)
国家社会科学基金(12CTQ042)资助
文摘
传统伪相关反馈容易产生"查询主题漂移",有效避免"查询主题漂移"的首要前提是确定高质量的相关文档,形成与用户查询需求相关的伪相关文档集合。在检索结果聚类的基础上,研究了XML伪相关文档查找方法,在充分考虑XML内容和结构特征的前提下,提出了基于均衡化权值的簇标签提取方法,并以此为基础,提出了候选簇的排序模型和基于候选簇的文档排序模型。相关实验数据表明,与初始检索结果相比,排序模型获得了较好的性能,有效地查找到了更多的XML伪相关文档。
关键词
信息检索
xml 伪相关反馈
xml 检索结果聚 类
簇标签
排序模型
Keywords
Information retrieval, xml pseudo-relevance feedback, xml search results clustering, Cluster label, Ran-king model
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 基于DBSCAN算法的XML结构相似性聚类研究
9
作者
罗丹
刘先锋
机构
湖南师范大学数学与计算机科学学院
出处
《信息技术》
2009年第8期24-26,31,共4页
基金
国家自然科学基金(10571052)
湖南省高校青年骨干教师资金
湖南省教育厅科研资金资助
文摘
通过对XML结构聚类现状进行研究分析,提出了一种新的XML文档结构相似度度量方法DBTD(Density-Based of the Tree Distance),并在此基础上提出以基于密度的DBSCAN方法对XML文档进行结构聚类。实验表明:该方法能够对XML文档进行结构聚类,且其聚类结果充分展现了该方法的有效性。
关键词
xml
xml聚类
结构聚 类
相似度度量
Keywords
xml
xml clustering
structure clustering
similarity measure
分类号
TP311.12
[自动化与计算机技术—计算机软件与理论]
题名 基于频繁结构的XML文档聚类
被引量:1
10
作者
傅珊珊
吴扬扬
机构
华侨大学计算机科学系
出处
《计算机工程与应用》
CSCD
北大核心
2008年第9期135-138,171,共5页
基金
福建省自然科学基金(the Natural Science Foundation of Fujian Province of China under Grant No.A0510020)
文摘
研究基于频繁结构的XML文档聚类方法,其频繁结构包括频繁路径和频繁子树。首先介绍一种挖掘XML文档中所有嵌入频繁子树的算法SSTMiner,对SSTMiner算法进行修改,得到FrePathMiner算法和FreTreeMiner算法,分别用于挖掘XML文档中最大频繁路径和最大频繁子树,在此基础上,提出一种凝聚的层次聚类算法XMLCluster,分别以最大频繁路径和最大频繁子树作为XML文档的特征,对文档进行聚类。实验结果表明FrePathMiner算法和FreTreeMiner算法找到频繁结构的数量都比传统的ASPMiner算法多,这就可以为文档聚类提供更多的结构特征,从而获得更高的聚类精度。
关键词
xml 文档聚 类
最大频繁路径
最大频繁子树
层次聚 类
Keywords
xml document clustering
common frequent path
common frequent trees
hierarchical clustering
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
题名 基于特征偏好的XML文档聚类算法
11
作者
王成勇
杜庆伟
孙静
孙振
机构
南京航空航天大学计算机科学与技术学院
出处
《计算机工程与应用》
CSCD
北大核心
2016年第12期64-68,共5页
基金
国家自然科学基金(No.61202350)
文摘
XML文档聚类在众多数据应用领域都具有重要作用。基于特征偏好的XML文档聚类算法是对XML文档进行特征选择,将XML文档描述为n维特征向量,再结合CFP(Clustering with Feature order Preference)算法,根据特征偏好为其赋予权重,每次迭代聚类过程中进行权重的更新。实验结果表明当CFP算法中的特征偏好权重和XML文档向量化时所用的层次权重设定相结合时,可弥补XML文档向量化时的弊端,提高了XML文档聚类的精度。
关键词
可扩展标记语言(xml )文档聚 类
层次权重
特征偏好
Keywords
clustering Extensible Markup Language(xml )documents
level weight
feature order preference
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 基于BDB的XML检索引擎算法设计与实现
12
作者
杜鹏
机构
天津大学管理与经济学部
出处
《信息技术》
2014年第8期100-103,共4页
文摘
XML作为互联网数据交换及数据表现的标准,其重要性日益凸显,如何从大量的XML中挖掘有效信息已成为目前亟待解决的问题。设计并实现一个基于BDB的XML检索引擎算法XObject,通过构造关键词结构查询路径、进行结构聚类,并最终在BDB XML执行Xquery查询实现本地XML的关键字检索,从而解决XML信息挖掘中的关键技术课题——XML信息检索。
关键词
BERKELEY
DB
xml 结构聚 类
XObject
Keywords
Berkeley DB
xml clustering structure
XObject
分类号
TP393
[自动化与计算机技术—计算机应用技术]