期刊文献+
共找到51篇文章
< 1 2 3 >
每页显示 20 50 100
PHUI-GA: GPU-based efficiency evolutionary algorithm for mining high utility itemsets
1
作者 JIANG Haipeng WU Guoqing +3 位作者 SUN Mengdan LI Feng SUN Yunfei FANG Wei 《Journal of Systems Engineering and Electronics》 SCIE CSCD 2024年第4期965-975,共11页
Evolutionary algorithms(EAs)have been used in high utility itemset mining(HUIM)to address the problem of discover-ing high utility itemsets(HUIs)in the exponential search space.EAs have good running and mining perform... Evolutionary algorithms(EAs)have been used in high utility itemset mining(HUIM)to address the problem of discover-ing high utility itemsets(HUIs)in the exponential search space.EAs have good running and mining performance,but they still require huge computational resource and may miss many HUIs.Due to the good combination of EA and graphics processing unit(GPU),we propose a parallel genetic algorithm(GA)based on the platform of GPU for mining HUIM(PHUI-GA).The evolution steps with improvements are performed in central processing unit(CPU)and the CPU intensive steps are sent to GPU to eva-luate with multi-threaded processors.Experiments show that the mining performance of PHUI-GA outperforms the existing EAs.When mining 90%HUIs,the PHUI-GA is up to 188 times better than the existing EAs and up to 36 times better than the CPU parallel approach. 展开更多
关键词 high utility itemset mining(HUIM) graphics process-ing unit(GPU)parallel genetic algorithm(GA) mining perfor-mance
下载PDF
A related degree-based frequent pattern mining algorithm for railway fault data
2
作者 Jiaxu Guo Ding Ding +2 位作者 Peihan Yang Qi Zou Yaping Huang 《High-Speed Railway》 2024年第2期101-109,共9页
It is of great significance to improve the efficiency of railway production and operation by realizing the fault knowledge association through the efficient data mining algorithm.However,high utility quantitative freq... It is of great significance to improve the efficiency of railway production and operation by realizing the fault knowledge association through the efficient data mining algorithm.However,high utility quantitative frequent pattern mining algorithms in the field of data mining still suffer from the problems of low time-memory performance and are not easy to scale up.In the context of such needs,we propose a related degree-based frequent pattern mining algorithm,named Related High Utility Quantitative Item set Mining(RHUQI-Miner),to enable the effective mining of railway fault data.The algorithm constructs the item-related degree structure of fault data and gives a pruning optimization strategy to find frequent patterns with higher related degrees,reducing redundancy and invalid frequent patterns.Subsequently,it uses the fixed pattern length strategy to modify the utility information of the item in the mining process so that the algorithm can control the length of the output frequent pattern according to the actual data situation and further improve the performance and practicability of the algorithm.The experimental results on the real fault dataset show that RHUQI-Miner can effectively reduce the time and memory consumption in the mining process,thus providing data support for differentiated and precise maintenance strategies. 展开更多
关键词 high utility QUANTITATIVE frequent pattern mining Related degree pruning Fixed pattern length
下载PDF
一种基于关联程度的高效用数量比频繁模式挖掘算法
3
作者 王辉 李燕 +2 位作者 丁丁 吴坤 黄雅平 《计算机工程与科学》 CSCD 北大核心 2024年第9期1702-1710,共9页
高效用频繁模式挖掘算法运用数据项的重要度信息,能够从数据中挖掘出更重要的频繁模式,而高效用数量比频繁模式挖掘算法可以进一步研究频繁模式中数据项的数量比例关系,是目前数据挖掘领域中的研究课题。从提高算法性能和实用性的角度... 高效用频繁模式挖掘算法运用数据项的重要度信息,能够从数据中挖掘出更重要的频繁模式,而高效用数量比频繁模式挖掘算法可以进一步研究频繁模式中数据项的数量比例关系,是目前数据挖掘领域中的研究课题。从提高算法性能和实用性的角度出发对高效用数量比频繁模式挖掘算法进行优化,提出了一种基于关联程度的高效用数量比频繁模式挖掘算法RHUQI-Miner。RHUQI-Miner首先提出关联程度的概念,依据关联程度构建项目关联程度结构,并给出关联剪枝优化策略,寻找关联程度更高的项目集合,减少冗余和无效的频繁模式;随后运用修正模式长度策略,修正挖掘过程中项集的效用信息,使算法可根据实际数据情况控制输出频繁模式的长度,进一步提升算法的性能,提高算法的实用性。通过对RHUQI-Miner在动车组PHM系统车载故障数据集上的实验结果进行分析,表明该算法能够有效减少挖掘过程中的时间以及内存消耗,可以得出该算法适用于铁路实际数据和业务的有效结论。 展开更多
关键词 高效用 数量比 频繁模式挖掘 关联剪枝 修正模式长度
下载PDF
基于滑动窗口含负项的高效用模式挖掘
4
作者 武妍 荀亚玲 马煜 《计算机工程与设计》 北大核心 2024年第3期845-851,共7页
针对传统高效用模式挖掘均未考虑项的效用值为负,以及对流数据处理的时效性问题,提出一种基于滑动窗口的高效用挖掘算法HUPN_SW。利用一种新定义的滑动窗口正负效用列表PNSWU-List,维护挖掘最近批次高效用模式集所需的所有信息,实现有... 针对传统高效用模式挖掘均未考虑项的效用值为负,以及对流数据处理的时效性问题,提出一种基于滑动窗口的高效用挖掘算法HUPN_SW。利用一种新定义的滑动窗口正负效用列表PNSWU-List,维护挖掘最近批次高效用模式集所需的所有信息,实现有效的逐批次挖掘,避免重复的数据库扫描,在不产生候选效用模式集的情况下,直接挖掘出高效用模式,使HUPN_SW有效适应于动态流数据。实验结果表明,HUPN_SW算法在运行时间和可扩展性方面有良好表现。 展开更多
关键词 频繁模式挖掘 滑动窗口 高效用模式挖掘 高效用项集 负效用 流数据 效用列表
下载PDF
数据流上的约束跨层级高效用项集挖掘
5
作者 刘淑娟 韩萌 +2 位作者 高智慧 穆栋梁 李昂 《计算机工程与应用》 CSCD 北大核心 2024年第13期287-300,共14页
传统的高效用项集挖掘算法无法发现不同抽象层级类别之间的关系。因此,有研究者提出了跨层级的高效用项集挖掘算法。针对当前跨层级的高效用项集挖掘算法仅能处理静态数据并且无法控制挖掘层级范围的问题,提出了一种动态类别列表结构DTU... 传统的高效用项集挖掘算法无法发现不同抽象层级类别之间的关系。因此,有研究者提出了跨层级的高效用项集挖掘算法。针对当前跨层级的高效用项集挖掘算法仅能处理静态数据并且无法控制挖掘层级范围的问题,提出了一种动态类别列表结构DTUL存储并维护窗口内的项集效用和类别信息。基于此结构,首次提出了基于滑动窗口的约束跨层级高效用项集挖掘算法,包括自下而上挖掘的CCLHM_DTU算法和自上而下挖掘的CCLHM_UTD算法。在含有类别信息的数据集上进行了大量实验,实验结果表明提出的算法能够有效处理数据流并灵活约束项集的层级范围。 展开更多
关键词 高效用项集挖掘 跨层级高效用项集 数据流 滑动窗口 效用列表
下载PDF
HHUIM:一种新的启发式高效用项集挖掘方法
6
作者 高智慧 韩萌 +2 位作者 李昂 刘淑娟 穆栋梁 《计算机应用研究》 CSCD 北大核心 2024年第1期94-101,共8页
针对基于启发式的高效用项集挖掘算法在挖掘过程中可能丢失大量项集的问题,提出一种新的启发式高效用项集挖掘算法HHUIM。HHUIM利用哈里斯鹰优化算法进行种群更新,能够有效减少项集丢失。提出并设计了鹰的替换策略,解决了搜索空间较大... 针对基于启发式的高效用项集挖掘算法在挖掘过程中可能丢失大量项集的问题,提出一种新的启发式高效用项集挖掘算法HHUIM。HHUIM利用哈里斯鹰优化算法进行种群更新,能够有效减少项集丢失。提出并设计了鹰的替换策略,解决了搜索空间较大的问题,降低了适应度函数值低于最小效用阈值的鹰的数量。此外,提出存储回溯策略,可有效防止算法因收敛过快陷入局部最优。大量的实验表明,所提算法优于目前最先进的启发式高效用项集挖掘算法。 展开更多
关键词 哈里斯鹰优化算法 高效用项集挖掘 启发式算法 智能优化算法
下载PDF
基于统计显著性检验的高效用项集挖掘算法
7
作者 吴军 魏丹丹 +1 位作者 欧阳艾嘉 王亚 《计算机应用研究》 CSCD 北大核心 2024年第10期2970-2977,共8页
针对传统高效用项集挖掘算法在具有不同类型标签事务中报告假阳性高效用项集的问题,提出两个基于统计显著性检验的高效用项集挖掘算法——FHUI和PHUI算法。这两个算法首先找到所有待检验高效用项集并依据项集长度进行分组;然后,FHUI算... 针对传统高效用项集挖掘算法在具有不同类型标签事务中报告假阳性高效用项集的问题,提出两个基于统计显著性检验的高效用项集挖掘算法——FHUI和PHUI算法。这两个算法首先找到所有待检验高效用项集并依据项集长度进行分组;然后,FHUI算法根据项集自身的频率分布生成零分布,PHUI算法根据事务内置换策略或事务间置换策略构造置换事务集合来生成零分布。最后,FHUI和PHUI算法从零分布中计算出p值并运用错误发现率剔除假阳性高效用项集。基准事务集合实验结果显示FHUI和PHUI算法能够剔除大量的假阳性高效用项集,在后续分类任务中取得了更高的正确率;仿真事务集合实验结果显示FHUI和PHUI算法报告的项集中假阳性高效用项集数量占比低于4.8%且平均效用高于39000。实验结果证明,在具有不同类型的标签事务中,FHUI和PHUI算法报告的统计显著高效用项集可靠性和实用性更强。 展开更多
关键词 数据挖掘 高效用项集挖掘 统计显著性检验 Fisher检验 置换检验
下载PDF
高平均模糊效用项集挖掘算法
8
作者 王斌 李晓华 +1 位作者 周伟 胡克勇 《计算机工程与设计》 北大核心 2024年第5期1398-1405,共8页
为解决高模糊效用项集挖掘算法中存在的挖掘结果中含有大量无效的长项集以及搜索空间过大的问题,提出一种高平均模糊效用项集挖掘算法HAFUIM(high average fuzzy utility itemset mining algorithm)。定义平均模糊效用,考虑项集的模糊... 为解决高模糊效用项集挖掘算法中存在的挖掘结果中含有大量无效的长项集以及搜索空间过大的问题,提出一种高平均模糊效用项集挖掘算法HAFUIM(high average fuzzy utility itemset mining algorithm)。定义平均模糊效用,考虑项集的模糊效用和长度的关系,解决倾向于挖掘长项集的问题;提出平均模糊上限模型和4种剪枝性质,缩小搜索空间;设计平均模糊列表结构用于存储必要的效用信息,减少数据库扫描次数。通过仿真实验验证了所提算法的可行性和高效性。 展开更多
关键词 数据挖掘 项集挖掘 高模糊效用 平均模糊效用 平均模糊上限模型 平均模糊列表 剪枝策略
下载PDF
基于数据索引结构的跨级高效用项集挖掘算法 被引量:1
9
作者 蒋华 李星 +1 位作者 王慧娇 韦静海 《计算机应用》 CSCD 北大核心 2023年第7期2200-2208,共9页
针对现有的跨级高效用项集挖掘(HUIM)算法非常耗时且占用大量内存的问题,提出一种基于数据索引结构的跨级高效用项集挖掘算法(DISCH)。首先,为了高效存储和快速检索到搜索空间中的所有项集,拓展带有分类信息和索引信息的效用链表为数据... 针对现有的跨级高效用项集挖掘(HUIM)算法非常耗时且占用大量内存的问题,提出一种基于数据索引结构的跨级高效用项集挖掘算法(DISCH)。首先,为了高效存储和快速检索到搜索空间中的所有项集,拓展带有分类信息和索引信息的效用链表为数据索引结构(DIS);然后,为了提高内存利用率,对不满足条件的效用链表所占的内存进行回收再分配;最后,在构建效用链表时使用提前结束策略,以减少效用链表的产生。基于真实零售数据集和合成数据集进行的实验结果表明,与CLH-Miner(Cross-Level High utility itemsets Miner)算法相比,DISCH在运行时间上平均降低了77.6%,同时在内存消耗上平均降低了73.3%,可见该算法能高效完成跨级高效用项集的搜索,并且降低算法的内存消耗。 展开更多
关键词 数据挖掘 高效用项集挖掘 分类关系 索引链表 重用内存
下载PDF
基于长度约束的蝙蝠高效用项集挖掘算法 被引量:1
10
作者 袁泉 唐成亮 徐雲鹏 《计算机应用》 CSCD 北大核心 2023年第5期1473-1480,共8页
为了挖掘满足用户特殊需求,如含指定项目数量的高效用项集(HUI),提出一种基于长度约束的蝙蝠高效用项集挖掘算法(HUIM-LC-BA)。该算法融合蝙蝠算法(BA)和长度约束构建高效用项集挖掘(HUIM)模型,首先将数据库转换为位图矩阵,实现高效的... 为了挖掘满足用户特殊需求,如含指定项目数量的高效用项集(HUI),提出一种基于长度约束的蝙蝠高效用项集挖掘算法(HUIM-LC-BA)。该算法融合蝙蝠算法(BA)和长度约束构建高效用项集挖掘(HUIM)模型,首先将数据库转换为位图矩阵,实现高效的效用计算和数据库扫描;其次,采用重新定义的事务加权效用(RTWU)策略缩减搜索空间;最后,对项集进行长度修剪,使用深度优先搜索和轮盘赌注选择法确定修剪项目。在4个数据集的仿真实验中,当最大长度为6时,与HUIM-BA相比,HUIM-LC-BA挖掘的模式数量分别减少了91%、98%、99%与97%,同时运行时间也少于HUIM-BA;且在不同长度约束条件下,与FHM+(Faster High-utility itemset Ming plus)算法相比运行时间更稳定。实验结果表明,HUIM-LC-BA能有效挖掘具有长度约束的HUI,并减少挖掘模式的数量。 展开更多
关键词 高效用项集挖掘 蝙蝠算法 长度约束 位图矩阵 轮盘赌注选择法
下载PDF
基于滑动窗口的数据流高效用模糊项集挖掘 被引量:1
11
作者 单芝慧 韩萌 韩强 《南京师大学报(自然科学版)》 CAS 北大核心 2023年第1期120-129,共10页
高效用项集挖掘可以提供有趣的结果集,但并不能提供单个项的数量,因此,本文提出了高效用模糊项集.但是,现实世界的数据是不断出现的,需要实时处理新到来的数据.为解决当前高效用模糊项集不能处理数据流的问题,又提出了模糊效用列表(fuzz... 高效用项集挖掘可以提供有趣的结果集,但并不能提供单个项的数量,因此,本文提出了高效用模糊项集.但是,现实世界的数据是不断出现的,需要实时处理新到来的数据.为解决当前高效用模糊项集不能处理数据流的问题,又提出了模糊效用列表(fuzzy utility list,FUL)结构用于存储当前窗口中项的批次号、项在事务中的事务标识符、项的模糊效用以及项的剩余模糊效用,该结构能有效的对批次进行插入和删除操作.最后,基于FUL提出了数据流高效用模糊项集挖掘算法.对真实数据集和合成数据集进行了广泛的实验,结果证实了算法的效率及可行性. 展开更多
关键词 数据流挖掘 滑动窗口 高效用项集挖掘 模糊效用 效用列表
下载PDF
增量数据上的闭合定量高效用项集挖掘算法 被引量:1
12
作者 单芝慧 韩萌 韩强 《计算机应用》 CSCD 北大核心 2023年第7期2049-2056,共8页
高效用项集(HUI)挖掘能够提供数据集中高利润的项的组合信息,有利于在现实应用中制定有效的营销策略。然而,HUI仅提供项集及其总效用,不提供单个项的购买数量,而现实场景中项的数量能提供更精准的信息。因此,研究者提出定量高效用项集(H... 高效用项集(HUI)挖掘能够提供数据集中高利润的项的组合信息,有利于在现实应用中制定有效的营销策略。然而,HUI仅提供项集及其总效用,不提供单个项的购买数量,而现实场景中项的数量能提供更精准的信息。因此,研究者提出定量高效用项集(HUQI)挖掘算法。针对当前的HUQI挖掘算法仅能处理静态数据且存在结果集冗余的问题,提出增量更新的定量效用列表结构来存储并更新数据集中项的效用信息,并基于该结构提出一种挖掘闭合定量高效用项集(CHUQI)的算法。将所提出的算法与FHUQI-Miner(Faster High Utility Quantitative Itemset Miner)算法在结果集数量、最小效用阈值、批次数目以及可扩展性上对比时间与内存消耗。实验结果表明,所提算法能够有效处理增量数据,挖掘出更有趣的项集。 展开更多
关键词 增量挖掘 高效用项集 定量高效用项集 闭合高效用项集 效用列表
下载PDF
基于智能优化算法的高效用项集挖掘方法综述 被引量:2
13
作者 高智慧 韩萌 +2 位作者 刘淑娟 李昂 穆栋梁 《计算机应用》 CSCD 北大核心 2023年第6期1676-1686,共11页
高效用项集挖掘(HUIM)能够挖掘事务数据库中具有重要意义的项集,从而帮助用户更好地进行决策。针对智能优化算法的应用能够显著提高海量数据中高效用项集的挖掘效率这一现状,对基于智能优化算法的HUIM方法进行了综述。首先,以智能优化... 高效用项集挖掘(HUIM)能够挖掘事务数据库中具有重要意义的项集,从而帮助用户更好地进行决策。针对智能优化算法的应用能够显著提高海量数据中高效用项集的挖掘效率这一现状,对基于智能优化算法的HUIM方法进行了综述。首先,以智能优化算法的类别为角度,从基于群智能优化、基于进化以及基于其他智能优化算法的方法这3个方面对基于智能优化算法的HUIM方法进行了详细的分析与总结。同时,从粒子更新方式的角度对基于粒子群优化(PSO)的HUIM方法进行了详细梳理,包括基于传统更新策略、基于sigmoid函数、基于贪心、基于轮盘赌以及基于集合的方法。另外,从种群更新方法、对比算法、参数设置、优缺点等角度对比分析了基于群智能优化算法的HUIM方法。然后,从遗传和仿生两个方面对基于进化的HUIM方法进行总结概括。最后,针对目前基于智能优化算法的HUIM方法所存在的问题,提出了下一步的研究方向。 展开更多
关键词 高效用项集挖掘 智能优化算法 粒子群优化算法 进化算法 启发式算法
下载PDF
基于马尔可夫优化的高效用项集挖掘算法
14
作者 钟新成 刘昶 赵秀梅 《计算机应用》 CSCD 北大核心 2023年第12期3764-3771,共8页
基于树型和链表结构的高效用项集挖掘(HUIM)算法通常需要指数量级的搜索空间,而基于进化类型的挖掘算法未能充分考虑变量间的相互作用,因此提出一种基于马尔可夫优化的HUIM算法(HUIM-MOA)。首先,采用位图矩阵表示数据库和使用期望向量编... 基于树型和链表结构的高效用项集挖掘(HUIM)算法通常需要指数量级的搜索空间,而基于进化类型的挖掘算法未能充分考虑变量间的相互作用,因此提出一种基于马尔可夫优化的HUIM算法(HUIM-MOA)。首先,采用位图矩阵表示数据库和使用期望向量编码,以实现对数据库的快速扫描和效用值的高效计算;其次,通过计算优势个体间的互信息估计马尔可夫网络(MN)结构,并根据它们的局部特性使用吉布斯采样以产生新的种群;最后,为防止算法过快陷入局部最优和减少高效用项集的缺失,分别采用种群多样性保持策略和精英策略。在真实数据集上的实验结果表明,相较于次优的基于粒子群优化(PSO)的生物启发式HUI框架(Bio-HUIF-PSO)算法,在给定较大最小阈值的情况下,HUIM-MOA可以找到全部的高效用项集(HUI),收敛速度平均提升12.5%,挖掘HUI数平均提高2.85个百分点,运行时间平均减少14.6%。HUIM-MOA较进化型HUIM算法有更强的搜索性能,能有效减少搜索时间和提高搜索质量。 展开更多
关键词 高效用项集挖掘 马尔可夫网络 位图矩阵 吉布斯采样 精英策略
下载PDF
Top-k高模糊效用项集挖掘算法 被引量:1
15
作者 王斌 周伟 +1 位作者 李晓华 胡克勇 《计算机工程与设计》 北大核心 2023年第11期3312-3319,共8页
针对高模糊效用项集挖掘算法中存在的阈值选择难题,提出一种Top-k高模糊效用项集挖掘算法TKHFU(top-k high fuzzy utility itemset mining)。将高模糊效用项集挖掘算法中设定阈值的问题转化为设定所需高模糊效用项集数量k的问题。提出... 针对高模糊效用项集挖掘算法中存在的阈值选择难题,提出一种Top-k高模糊效用项集挖掘算法TKHFU(top-k high fuzzy utility itemset mining)。将高模糊效用项集挖掘算法中设定阈值的问题转化为设定所需高模糊效用项集数量k的问题。提出模糊项集效用列表结构,有效保存事务数据库中的关键信息,避免项集间复杂的连接操作。提出一种更紧密的模糊效用上界和两种剪枝策略,将剪枝策略运用至列表中,减少搜索空间。实验结果表明,该算法在运行时间、内存消耗及可伸缩性方面均优于最新算法。 展开更多
关键词 数据挖掘 项集挖掘 阈值 高模糊效用 效用列表 模糊效用上界 剪枝策略
下载PDF
HUITWU: An Efficient Algorithm for High-Utility Itemset Mining in Transaction Databases 被引量:4
16
作者 Shi-Ming Guo Hong Gao 《Journal of Computer Science & Technology》 SCIE EI CSCD 2016年第4期776-786,共11页
Mining high-utility itemsets (HUIs) from a transaction database refers to the discovery of itemsets with high utilities like profits. Most of existing studies discover HUIs from a transaction database in two phases.... Mining high-utility itemsets (HUIs) from a transaction database refers to the discovery of itemsets with high utilities like profits. Most of existing studies discover HUIs from a transaction database in two phases. In phase 1, different overestimation methods are applied to calculate the upper bounds of the utilities of itemsets. Since the overestimated utilities of itemsets are adopted, the itemsets whose overestimated utilities are no less than a user-specified threshold are selected as candidate HUIs, and they are verified by scanning the database one more time in phase 2. However, a large number of candidate HUIs incur two problems: 1) it requires excessive memory to store these candidates; 2) it needs a large amount of running time to calculate their exact utilities. Vertical data format has been applied to mine HUIs recently. However this kind of method cannot deal with transactions with the same items effectively so that the size of database cannot be reduced sufficiently. The overall performance of algorithms is degraded consequently. Thus an algorithm HUITWU is proposed in this paper for mining HUIs. A novel data structure HUITwu-Tree is adopted to efficiently calculate the utilities of itemsets in a database. Extensive studies with both sparse and dense datasets have demonstrated that our proposed algorithm is more than an order of magnitude faster and consumes less memory than the state-of-the-art algorithms. 展开更多
关键词 data mining high-utility itemset pattern growth
原文传递
挖掘意外高效用项集的有效方法
17
作者 王斌 姚银凤 +1 位作者 周伟 胡克勇 《计算机仿真》 北大核心 2023年第4期469-475,共7页
针对传统的高效用项集挖掘存在可能会丢失特定切片上的意外项集的利润、缺乏反单调性、计算量大等问题,提出了挖掘意外高效用项集(Unexpected High Utility Itemsets Mining, UHUIM)的算法。算法用于挖掘意外的高效用项集,给需要定期分... 针对传统的高效用项集挖掘存在可能会丢失特定切片上的意外项集的利润、缺乏反单调性、计算量大等问题,提出了挖掘意外高效用项集(Unexpected High Utility Itemsets Mining, UHUIM)的算法。算法用于挖掘意外的高效用项集,给需要定期分析的数据集带来了意外的利润。上述算法提出了意外高效用列表的数据结构(UHUI-list),能够更加紧凑的存储项集的有用信息且在挖掘过程中重用内存,提高了挖掘效率及节省存储空间;所提算法提出了UHUI-Prune策略,有效地缩小了挖掘过程中的搜索空间。在3个真实数据集上进行性能评估,上述算法在运行时间、存储空间及可伸缩性方面皆优于ULB-Miner算法及HUI-Miner算法。 展开更多
关键词 意外高效用项集 意外高效用列表 意外高效用剪枝策略 数据挖掘
下载PDF
基于模式增长方式的高效用模式挖掘算法 被引量:10
18
作者 王乐 熊松泉 +1 位作者 常艳芬 王水 《自动化学报》 EI CSCD 北大核心 2015年第9期1616-1626,共11页
高效用模式挖掘是数据挖掘领域的一个重要研究内容;由于其计算过程包含对模式的内、外效用值的处理,计算复杂度较大,因此挖掘算法的主要研究热点问题就是提高算法的时间效率.针对此问题,本文给出一个基于模式增长方式的高效用模式挖掘算... 高效用模式挖掘是数据挖掘领域的一个重要研究内容;由于其计算过程包含对模式的内、外效用值的处理,计算复杂度较大,因此挖掘算法的主要研究热点问题就是提高算法的时间效率.针对此问题,本文给出一个基于模式增长方式的高效用模式挖掘算法HUPM-FP,该算法可以从全局树上挖掘高效用模式,避免产生候选项集.实验中,采用6个典型数据集进行实验,并和目前效率较好的算法FHM(Faster high-utility itemset mining)做了对比,实验结果表明本文给出的算法时空效率都有较大的提高,特别是时间效率提高较大,可以达到1个数量级以上. 展开更多
关键词 高效用模式 频繁模式 频繁项集 数据挖掘
下载PDF
高效用项集挖掘算法 被引量:9
19
作者 祝孔涛 李兴建 王乐 《计算机工程与设计》 CSCD 北大核心 2013年第12期4220-4225,共6页
现有高效用项集挖掘算法主要采用项集枚举和两阶段方法 (或称为候选项集测试方法),后者时空效率的主要瓶颈在于候选项集过多。针对该问题,采用降低候选项集twu值,及利用项最大最小效用值来估计候选项集的效用值等策略,进而进行剪枝,从... 现有高效用项集挖掘算法主要采用项集枚举和两阶段方法 (或称为候选项集测试方法),后者时空效率的主要瓶颈在于候选项集过多。针对该问题,采用降低候选项集twu值,及利用项最大最小效用值来估计候选项集的效用值等策略,进而进行剪枝,从而有效地提高挖掘算法的时间和空间效率。实验采用真实数据集和合成数据集进行算法性能测试,实验结果表明改进后的算法性能得到较大的提高。 展开更多
关键词 效用 高效用项集 频繁项集 候选项集 数据挖掘
下载PDF
不产生候选项集的TOP-K高效用模式挖掘算法 被引量:9
20
作者 王乐 冯林 王水 《计算机研究与发展》 EI CSCD 北大核心 2015年第2期445-455,共11页
目前TOP-K高效用模式挖掘算法需要产生候选项集,特别是当数据集比较大或者数据集中包含较多长事务项集时,算法的时间和空间效率会受到更大的影响.针对此问题,通过将事务项集和项集效用信息有效地保存到树结构HUP-Tree,给出一个不需要候... 目前TOP-K高效用模式挖掘算法需要产生候选项集,特别是当数据集比较大或者数据集中包含较多长事务项集时,算法的时间和空间效率会受到更大的影响.针对此问题,通过将事务项集和项集效用信息有效地保存到树结构HUP-Tree,给出一个不需要候选项集的挖掘算法TOPKHUP;HUPTree树能保证从中计算到每个模式的效用值,不需要再扫描数据集来计算模式的效用值,从而使挖掘算法的时空效率得到较大的提高.采用7个典型数据集对算法的性能进行测试,实验结果证明TOPKHUP的时间和空间效率都优于已有算法,并对K值的变化保持平稳. 展开更多
关键词 高效用模式 频繁模式 频繁项集 数据挖掘 TOP—K
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部