期刊文献+
共找到17篇文章
< 1 >
每页显示 20 50 100
中文文本同频词统计规律及在关键词提取中的应用 被引量:4
1
作者 李晓超 赵书良 +2 位作者 罗燕 陈敏 柳萌萌 《计算机应用研究》 CSCD 北大核心 2016年第4期1007-1012,共6页
通过大量实验对中文文本中同频词的统计规律进行了研究,利用齐普夫定律推导出了适合中文文本的同频词数的数学表达式,能更准确地表示出不同长度的文本中各频次的同频词数;借助同频词数的数学表达式,重新确立了中文文本中高频词和低频词... 通过大量实验对中文文本中同频词的统计规律进行了研究,利用齐普夫定律推导出了适合中文文本的同频词数的数学表达式,能更准确地表示出不同长度的文本中各频次的同频词数;借助同频词数的数学表达式,重新确立了中文文本中高频词和低频词的界分公式,并通过实验验证了该公式能够更好地界分高频词和低频词。将提出的统计规律应用于中文文本关键词提取,有效提高了关键词提取效率,在文本长度不小于3 010词的前提下,频次为1和频次为2的词不必参与TF-IDF值的计算,可将计算效率提高2~7倍,且没有造成关键词丢失。解决了学术界关心的如何处理中文低频词的问题,对关键词提取中如何处理低频词提供了可操作标准。 展开更多
关键词 同频词 齐普夫定律 布茨定律 关键词提取 TF-IDF算法
下载PDF
基于粒计算的多尺度聚类尺度上推算法 被引量:8
2
作者 赵骏鹏 赵书良 +2 位作者 李超 高琳 池云仙 《计算机应用研究》 CSCD 北大核心 2018年第2期362-366,共5页
多尺度科学在数据挖掘领域的研究多见于图像和空间数据挖掘,对一般数据的多尺度特性研究较少。传统聚类算法只在单一尺度上进行,无法充分挖掘蕴藏在数据中的知识。引入粒计算思想,进行普适的多尺度聚类方法研究,对数据进行多层次、多角... 多尺度科学在数据挖掘领域的研究多见于图像和空间数据挖掘,对一般数据的多尺度特性研究较少。传统聚类算法只在单一尺度上进行,无法充分挖掘蕴藏在数据中的知识。引入粒计算思想,进行普适的多尺度聚类方法研究,对数据进行多层次、多角度分析,实现一次挖掘,多次应用。首先,介绍粒计算相关知识;然后,提出多尺度聚类尺度上推算法UAMC(upscaling algorithm of multi-scale clustering),以簇为粒子,簇心为粒子特征进行尺度转换,利用斑块模型得到大尺度知识,避免二次挖掘带来的资源浪费。最后,利用UCI公用数据集和H省全员人口真实数据集对算法性能进行实验验证,结果表明算法在准确性上优于K-means等基准算法,是有效可行的。 展开更多
关键词 多尺度 粒计算 信息粒度 斑块模型 多尺度聚类
下载PDF
基于词频统计的文本关键词提取方法 被引量:78
3
作者 罗燕 赵书良 +2 位作者 李晓超 韩玉辉 丁亚飞 《计算机应用》 CSCD 北大核心 2016年第3期718-725,共8页
针对传统TF-IDF算法关键词提取效率低下及准确率欠佳的问题,提出一种基于词频统计的文本关键词提取方法。首先,通过齐普夫定律推导出文本中同频词数的计算公式;其次,根据同频词数计算公式确定文本中各频次词语所占比重,发现文本中绝大... 针对传统TF-IDF算法关键词提取效率低下及准确率欠佳的问题,提出一种基于词频统计的文本关键词提取方法。首先,通过齐普夫定律推导出文本中同频词数的计算公式;其次,根据同频词数计算公式确定文本中各频次词语所占比重,发现文本中绝大多数是低频词;最后,将词频统计规律应用于关键词提取,提出基于词频统计的TFIDF算法。采用中、英文文本实验数据集进行仿真实验,其中推导出的同频词数计算公式平均相对误差未超过0.05;确立的各频次词语所占比重的最大误差绝对值为0.04;提出的基于词频统计的TF-IDF算法与传统TF-IDF算法相比,平均查准率、平均查全率和平均F1度量均有提高,而平均运行时间则均有降低。实验结果表明,在文本关键词提取中,基于词频统计的TF-IDF算法在查准率、查全率及F1指标上均优于传统TF-IDF算法,并能够有效减少关键词提取运行时间。 展开更多
关键词 词频统计 齐普夫定律 同频词 关键词提取 TF-IDF算法
下载PDF
多尺度聚类挖掘算法 被引量:7
4
作者 韩玉辉 赵书良 +2 位作者 柳萌萌 罗燕 丁亚飞 《计算机科学》 CSCD 北大核心 2016年第8期244-248,共5页
数据挖掘领域在多尺度研究上已取得了一些进展。然而,当前研究主要集中于空间、图像数据的多尺度挖掘,并且传统的聚类挖掘并未对数据集的多尺度特性进行单独的研究。针对存在的问题,进行了普适性的多尺度聚类挖掘理论和方法的研究。首先... 数据挖掘领域在多尺度研究上已取得了一些进展。然而,当前研究主要集中于空间、图像数据的多尺度挖掘,并且传统的聚类挖掘并未对数据集的多尺度特性进行单独的研究。针对存在的问题,进行了普适性的多尺度聚类挖掘理论和方法的研究。首先,根据概念分层理论扩展尺度定义并构建多尺度数据集;其次,阐述尺度转换原因、分类,归纳多尺度聚类的定义;然后,以克里格法为理论基础,给出多尺度聚类尺度上推算法MSCSUA和多尺度聚类尺度下推算法MSCSDA;最后,利用公用UCI聚类数据集和H省全员人口真实数据集对算法进行实验验证,结果表明MSCSUA和MSCSDA是有效、可行的。 展开更多
关键词 多尺度 聚类 尺度转换 多尺度聚类挖掘 克里格法
下载PDF
三支决策视角下概念格的分析和比较 被引量:8
5
作者 李磊军 李美争 +1 位作者 解滨 米据生 《模式识别与人工智能》 EI CSCD 北大核心 2016年第10期951-960,共10页
基于概念的构造和形式背景的构成,文中从三支决策的视角探究不同概念格之间的内在联系,分别对比不完备形式背景和经典形式背景中的概念格及直觉模糊形式背景和模糊形式背景中的概念格,展现三支决策在概念格理论中的重要价值.通过对比可... 基于概念的构造和形式背景的构成,文中从三支决策的视角探究不同概念格之间的内在联系,分别对比不完备形式背景和经典形式背景中的概念格及直觉模糊形式背景和模糊形式背景中的概念格,展现三支决策在概念格理论中的重要价值.通过对比可以看出,相比经典形式背景和模糊形式背景中的概念格,不完备形式背景和直觉模糊形式背景中的概念格体现三支决策思想,具有数据存储所占空间更小,属性约简更简洁等优势. 展开更多
关键词 概念格 三支决策 不完备形式背景 模糊形式背景 直觉模糊形式背景
下载PDF
多尺度关联规则挖掘的尺度上推算法 被引量:6
6
作者 柳萌萌 赵书良 +1 位作者 陈敏 李晓超 《计算机应用研究》 CSCD 北大核心 2015年第10期2924-2929,共6页
多尺度理论已被引入到数据挖掘领域中,但目前多尺度数据挖掘的研究并不深入,缺乏普适性理论与方法。针对上述问题,研究了普适的多尺度数据挖掘理论,提出了尺度上推关联规则挖掘算法。首先基于概念分层理论给出了数据尺度划分和数据尺度... 多尺度理论已被引入到数据挖掘领域中,但目前多尺度数据挖掘的研究并不深入,缺乏普适性理论与方法。针对上述问题,研究了普适的多尺度数据挖掘理论,提出了尺度上推关联规则挖掘算法。首先基于概念分层理论给出了数据尺度划分和数据尺度的定义;然后根据多尺度理论的研究重点阐明了多尺度数据挖掘的实质及研究核心;最后在多尺度数据理论研究的基础上提出了尺度上推关联规则挖掘算法SU-ARMA(scaling-up association rules mining algorithm)。该算法利用采样理论和Jaccard相似性系数对数据集挖掘结果中的频繁项集进行处理,实现了多尺度数据间知识的向上推导。利用人造数据集和H省全员人口真实数据集对算法进行了实验和分析,实验结果表明算法具有较高的覆盖率、精确度和较低的支持度估计误差,是可行且有效的。 展开更多
关键词 多尺度 概念分层 频繁项集 尺度上推 多尺度关联规则挖掘
下载PDF
家谱关系的元图表示 被引量:4
7
作者 刘军丹 赵书良 +3 位作者 赵娇娇 郭晓波 陈敏 柳萌萌 《计算机应用》 CSCD 北大核心 2013年第7期2037-2040,共4页
针对已有家谱图展示形式中,边的数量随节点数的增加而快速增长导致表现力下降的问题,提出以元图的形式对家谱进行可视化展示。家谱的元图表示形式中,产生集表示家族中所有人员组成的集合,每条边仅表示"父母子女"关系,不必存... 针对已有家谱图展示形式中,边的数量随节点数的增加而快速增长导致表现力下降的问题,提出以元图的形式对家谱进行可视化展示。家谱的元图表示形式中,产生集表示家族中所有人员组成的集合,每条边仅表示"父母子女"关系,不必存在表示夫妻关系的边。其中,边为产生集的两个子集的有序对,分别为具有夫妻关系的两个节点组成的入点集和单个的孩子节点组成的出点集。实验结果表明,在数据相同的情况下,家谱的元图可视化形式中边的数量约为通常的展示形式中边数量的一半,使得展示结果清晰易懂。同时,对家谱的数学建模、可视化研究以及家谱信息系统的改造具有一定指导作用。 展开更多
关键词 家谱 可视化 元图 人口数据库 系统原型
下载PDF
多尺度关联规则尺度上推算法 被引量:4
8
作者 李超 赵书良 +2 位作者 赵骏鹏 高琳 池云仙 《计算机科学》 CSCD 北大核心 2017年第8期285-289,共5页
数据挖掘在多尺度研究方面取得了一些成果。然而,多尺度数据挖掘研究还不够深入和完善。目前针对空间和图像数据的研究较多,对于一般数据的多尺度数据挖掘的研究较少。随着大数据应用的不断发展,其研究显得尤为重要。针对上述问题,进行... 数据挖掘在多尺度研究方面取得了一些成果。然而,多尺度数据挖掘研究还不够深入和完善。目前针对空间和图像数据的研究较多,对于一般数据的多尺度数据挖掘的研究较少。随着大数据应用的不断发展,其研究显得尤为重要。针对上述问题,进行了普适的多尺度关联规则尺度转换方法的研究。首先,基于包含度的相似度理论提出频繁项集的处理方法;然后,以图像金字塔为理论基础,提出了多尺度关联规则尺度上推算法MSARSUA(Multi-Scale Association Rules Scaling Up Algorithm);最后,利用H省1)全员人口真实数据集、UCI公用数据集和IBM数据集对所提算法进行了实验验证与分析,结果表明MSARSUA具有较高的覆盖率、较高的F1-measure值和较低的平均支持度估计误差,在效率上比Apriori算法和FP-Growth算法有较大的提升,在性能上比SU-ARMA有更好的表现。 展开更多
关键词 多尺度 关联规则 尺度上推 多尺度关联规则挖掘
下载PDF
基于超图的关联规则可视化方法 被引量:3
9
作者 高琳 赵书良 +2 位作者 赵骏鹏 李超 池云仙 《计算机应用研究》 CSCD 北大核心 2017年第10期2933-2937,共5页
针对传统的关联规则可视化方法缺乏多模式关联规则展现形式、无法展示关联规则的内部信息以及分布情况、属性值重要程度突出不明显等问题,提出了基于超图的关联规则表示方法。首先,基于超图中BF-超边基础理论,给出了BF规则图的定义,并... 针对传统的关联规则可视化方法缺乏多模式关联规则展现形式、无法展示关联规则的内部信息以及分布情况、属性值重要程度突出不明显等问题,提出了基于超图的关联规则表示方法。首先,基于超图中BF-超边基础理论,给出了BF规则图的定义,并且设计了基于超图的一对一、一对多、多对一、多对多关联规则表示原型;结合沙漏结构,设计了基于超图的关联规则可视化布局算法;然后,基于交互理论及其相关技术,设计并实现了交互式关联规则可视化系统;最后,以某省全员人口数据为基础,对算法进行了具体实现和分析。实验结果表明,所提出的可视化形式和已有成果相比具有良好的展现效果。 展开更多
关键词 超图 关联规则 可视化 交互 人口数据
下载PDF
布茨定律用于中文同频词规律的实证研究
10
作者 李晓超 贾立国 +3 位作者 罗燕 陈敏 柳萌萌 赵书良 《情报杂志》 CSSCI 北大核心 2015年第6期62-67,共6页
布茨定律反映了英文文本同频词的分布规律,但布茨定律是否适用于中文文本很少有学者对其进行深入研究。为了探究布茨定律对于中文文本的适用性,揭示中文文本同频词的统计规律,对大量中文文本同频词进行统计研究,实验过程中注重了实验数... 布茨定律反映了英文文本同频词的分布规律,但布茨定律是否适用于中文文本很少有学者对其进行深入研究。为了探究布茨定律对于中文文本的适用性,揭示中文文本同频词的统计规律,对大量中文文本同频词进行统计研究,实验过程中注重了实验数据规模的选取和文本长度跨度的设计。实验得出:随着文本长度的增大,低频词的同频词数与不同词数的比值并非定值,而是逐渐减小;低频词的同频词数与不同词数的关系呈幂函数增长。另外,随着文本长度的增大,低频词的同频词数与频次为1的同频词数的比值也非定值,而是逐渐增大。上述结果与布茨所做英文的实验不一致,故得出结论:布茨定律不适用于中文文本。 展开更多
关键词 同频词 齐普夫定律 布茨定律 低频词
下载PDF
基于词频统计规律的文本数据预处理方法 被引量:12
11
作者 池云仙 赵书良 +3 位作者 罗燕 高琳 赵骏鹏 李超 《计算机科学》 CSCD 北大核心 2017年第10期276-282,288,共8页
在大数据时代,文本挖掘面临特征的"高维-稀疏"问题,海量文本词汇与稀少关键特征间的矛盾导致了高时空复杂度和低效率等问题,严重制约了文本挖掘效率,因此在文本挖掘前进行有效的数据预处理至关重要。传统文本挖掘算法在数据... 在大数据时代,文本挖掘面临特征的"高维-稀疏"问题,海量文本词汇与稀少关键特征间的矛盾导致了高时空复杂度和低效率等问题,严重制约了文本挖掘效率,因此在文本挖掘前进行有效的数据预处理至关重要。传统文本挖掘算法在数据预处理阶段只进行分词和去停用词操作。为提高性能,提出基于词频统计规律的文本数据预处理方法。首先,基于齐普夫定律和最大值法推导同频词数表达式;然后,基于同频词数表达式探究各频次词语在文中的分布规律,结果表明词频为1和2的词语与文档的关联度较低,但比重高达2/3;最后,基于词频统计规律进行数据预处理,在预处理阶段去除低频词,减小特征维度。在公共数据集Reuters-21578和20-Newsgroups上进行的实验的结果表明,各频次词语的分布规律是正确的,基于词频统计规律的文本数据预处理方法在分类准确率、精确率、召回率以及F1度量值方面均有提升,运行时间明显降低,文本挖掘效率得到显著提高。 展开更多
关键词 大数据 文本挖掘 数据预处理 词频统计
下载PDF
基于加权向量提升的多尺度聚类挖掘算法 被引量:4
12
作者 苏东海 赵书良 +2 位作者 柳萌萌 苏嘉庚 李妍 《计算机科学》 CSCD 北大核心 2015年第4期263-267,共5页
多尺度聚类挖掘在指导人们进行多尺度决策方面有着不可取代的作用,然而传统的多尺度聚类挖掘算法有一个致命的弱点,即需要在每个用户感兴趣的尺度上应用聚类挖掘算法。为克服此缺陷,定义了一种将数据的多尺度特性进行向量化的方法;结合... 多尺度聚类挖掘在指导人们进行多尺度决策方面有着不可取代的作用,然而传统的多尺度聚类挖掘算法有一个致命的弱点,即需要在每个用户感兴趣的尺度上应用聚类挖掘算法。为克服此缺陷,定义了一种将数据的多尺度特性进行向量化的方法;结合地学领域的尺度转换机制,提出了一种新的知识的多尺度转换机制——基于加权向量提升的多尺度聚类挖掘算法WVB-MSCA(Weight Vector Based Multi-scale Clustering Algorithm)。算法首先在选定的基准尺度上进行聚类挖掘,获取聚类结果,并借助尺度转换机制将基准尺度的聚类结果反演到其它感兴趣的尺度上。实验表明,算法WVB-MSCA是可行且有效的。 展开更多
关键词 多尺度 尺度转换 聚类挖掘 多尺度聚类
下载PDF
基于广义分形插值理论的多尺度分类尺度下推算法 被引量:8
13
作者 李佳星 赵书良 +1 位作者 安磊 李长镜 《计算机应用研究》 CSCD 北大核心 2019年第7期1970-1974,共5页
多尺度数据挖掘多应用于空间遥感图像数据,以图像的分辨率或者区域分割为依据进行尺度划分,然后在每个尺度层进行分析。近期,有不少学者将多尺度数据挖掘应用于一般数据集上,以等级理论、概念分层以及包含度理论等为尺度划分依据,研究... 多尺度数据挖掘多应用于空间遥感图像数据,以图像的分辨率或者区域分割为依据进行尺度划分,然后在每个尺度层进行分析。近期,有不少学者将多尺度数据挖掘应用于一般数据集上,以等级理论、概念分层以及包含度理论等为尺度划分依据,研究不同尺度层的分布规律,进而发现有意义的事实,如多尺度关联规则以及多尺度聚类。但是在一般数据集下很少将多尺度数据挖掘应用于分类算法领域。定义了广义分形插值理论的概念,打破了局限于迭代函数系统(iterative function systems,IFS)的缺憾,拓展了分形插值的应用;提出了基于广义分形插值理论的多尺度分类尺度下推算法(multi-scale classification scaling-down algorithm,MSCSDA)。仿真实验建立在四个UCI基准数据集和一个H省部分人口真实数据集上,并将MSCSDA与KNN、decision tree以及LIBSVM算法进行对比分析,实验结果表明,MSCSDA在不同的数据集上均优于其他算法。 展开更多
关键词 多尺度数据挖掘 分类 分形插值 尺度下推
下载PDF
基于城区距离的自适应加权均值滤波算法 被引量:1
14
作者 曹萌 张有会 +2 位作者 王志巍 董蕊 郑英娟 《计算机应用》 CSCD 北大核心 2013年第11期3197-3200,共4页
针对传统滤波窗口不能自适应扩展以及标准均值滤波易造成图像边缘模糊的缺陷,提出一种基于城区距离的自适应加权均值滤波算法。首先,利用开关滤波思想检测出噪声点;其次,对于每一噪声点,依据城区距离扩展窗口,窗口的大小根据窗口内信号... 针对传统滤波窗口不能自适应扩展以及标准均值滤波易造成图像边缘模糊的缺陷,提出一种基于城区距离的自适应加权均值滤波算法。首先,利用开关滤波思想检测出噪声点;其次,对于每一噪声点,依据城区距离扩展窗口,窗口的大小根据窗口内信号点的个数自适应地调节;最后,将窗口内足够数量信号点的灰度的加权平均值作为噪声点的灰度值,实现对噪声点的有效恢复。实验结果表明,该算法能够有效地滤除椒盐噪声,尤其对噪声密度较大的图像,去噪效果更加显著。 展开更多
关键词 城区距离 自适应 均值滤波 高密度噪声 图像去噪
下载PDF
基于分形理论的多尺度分类尺度上推算法 被引量:3
15
作者 李佳星 赵书良 +1 位作者 安磊 李长镜 《计算机科学》 CSCD 北大核心 2018年第B06期453-459,共7页
目前,多尺度数据挖掘的研究多集中于空间图像数据,在一般数据集上的研究已经初见成果,主要包括多尺度聚类以及多尺度关联规则,但还没有研究涉及一般数据下的分类。结合分形理论思想,将多尺度数据挖掘相关理论、知识和方法应用于分类领域... 目前,多尺度数据挖掘的研究多集中于空间图像数据,在一般数据集上的研究已经初见成果,主要包括多尺度聚类以及多尺度关联规则,但还没有研究涉及一般数据下的分类。结合分形理论思想,将多尺度数据挖掘相关理论、知识和方法应用于分类领域,提出基于豪斯多夫距离(HD)的相似性度量方法;相对于以往对权重的经验定义,文中明确通过广义分形维数的相似性定义权重来提高相似性度量方法的精度;提出多尺度分类尺度上推算法(MultiScale Classification Scaling-Up Algorithm,MSCSUA);实验采用4个UCI基准数据集和1个真实数据集(H省部分人口)进行仿真实验,实验结果表明多尺度分类思想可行有效,并且MSCSUA算法在不同数据集上的性能均优于SLAD,KNN,Decision Tree以及LIBSVM算法。 展开更多
关键词 多尺度数据挖掘 多尺度分类 分形理论 尺度上推
下载PDF
面向多尺度数据挖掘的数据尺度划分方法 被引量:6
16
作者 张昉 赵书良 武永亮 《计算机科学》 CSCD 北大核心 2019年第4期57-65,共9页
多尺度挖掘在图形图像、地理信息、信号分析、数据挖掘等领域已有应用,多尺度数据挖掘在关联规则、聚类、分类挖掘领域也有相关研究与应用,但对如何对数据集进行普适性的多尺度划分以及如何构建多尺度数据集仍未展开研究,已有相关研究... 多尺度挖掘在图形图像、地理信息、信号分析、数据挖掘等领域已有应用,多尺度数据挖掘在关联规则、聚类、分类挖掘领域也有相关研究与应用,但对如何对数据集进行普适性的多尺度划分以及如何构建多尺度数据集仍未展开研究,已有相关研究缺乏深度。文中从多尺度数据挖掘任务入手,定义了尺度概念,并给出了多尺度化数据集模型,以及基准尺度评分模型;依据概率密度估计的离散化方法提出了多尺度划分算法,扩展了可划分尺度的数据类型,划分结果更贴近数据的多尺度特性,且具有较低的时间复杂度;提出了多尺度化数据集方法、构建多尺度数据集算法和基准尺度选择算法,将多尺度熵与信息熵作为评价方法,在扩充多尺度化数据集方法的基础上,有效减弱了多尺度数据挖掘中因尺度推衍而产生的尺度效应,算法的时间复杂性也较为可控。利用H省真实人口数据集、UCI公用数据集和T10I4D100K数据集对所提算法和模型进行验证与实验分析,结果表明多尺度划分算法和多尺度化数据集方法是可行的,提出的多尺度化数据集方法和基准尺度评分模型是有效的,多尺度划分方法、构建多尺度数据集方法和基准尺度选择方法的应用平均提高了尺度推衍过程中1.6%的覆盖率、2.1%的F1-measure和3.7%的正确率,且具有较低的平均支持度误差。 展开更多
关键词 多尺度数据挖掘 多尺度划分 离散化 构建多尺度数据集 基准尺度选择 多尺度熵 信息熵
下载PDF
基于优势关系的正协调模糊决策形式背景的规则融合 被引量:1
17
作者 张晓鹤 陈德刚 米据生 《南京理工大学学报》 CAS CSCD 北大核心 2021年第4期447-454,共8页
形式概念分析理论(Formal concept analysis,FCA)是知识发现的重要工具,促进了人工智能的发展。FCA重要的研究课题之一就是规则提取,提取决策规则能够帮助解决不同内涵取值的概念的决策问题。该文首先提出了基于优势关系的模糊决策形式... 形式概念分析理论(Formal concept analysis,FCA)是知识发现的重要工具,促进了人工智能的发展。FCA重要的研究课题之一就是规则提取,提取决策规则能够帮助解决不同内涵取值的概念的决策问题。该文首先提出了基于优势关系的模糊决策形式背景的3种协调性定义,并针对其关系进行讨论。然后基于确定性的粒决策规则提出正协调模糊决策形式背景上的决策规则融合方法,给出其对应算法从而获取包括确定性和不确定性的所有决策规则,且通过实例描述了该方法的有效性。 展开更多
关键词 形式背景 决策规则 规则融合 概念格 粒计算
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部