一次性条件下top-k高平均效用序列模式挖掘算法

Top-k high average utility sequential pattern mining algorithm under one-off condition

下载PDF

导出

摘要针对传统序列模式挖掘(SPM)不考虑模式重复性且忽略各项的效用(单价或利润)与模式长度对用户兴趣度影响的问题,提出一次性条件下top-k高平均效用序列模式挖掘(TOUP)算法。TOUP算法主要包括两个核心步骤:平均效用计算和候选模式生成。首先,提出基于各项出现位置与项重复关系数组的CSP(Calculation Support of Pattern)算法计算模式支持度,从而实现模式平均效用的快速计算;其次,采用项集扩展和序列扩展生成候选模式,并提出了最大平均效用上界,基于该上界实现对候选模式的有效剪枝。在5个真实数据集和1个合成数据集上的实验结果表明,相较于TOUP-dfs和HAOP-ms算法,TOUP算法的候选模式数分别降低了38.5%~99.8%和0.9%~77.6%;运行时间分别降低了33.6%~97.1%和57.9%~97.2%。TOUP的算法性能更优,能更高效地挖掘用户感兴趣的模式。 To address the issue that traditional Sequential Pattern Mining(SPM)does not consider pattern repetition and ignores the effects of utility(unit price or profit)and pattern length on user interest,a Top-k One-off high average Utility sequential Pattern mining(TOUP)algorithm was proposed.The TOUP algorithm mainly includes two core steps:average utility calculation and candidate pattern generation.Firstly,a CSP(Calculation Support of Pattern)algorithm based on the occurrence position of each item and the item repetition relation array was proposed to calculate pattern support,thereby achieving rapid calculation of the average utility of patterns.Secondly,candidate patterns were generated by itemset extension and sequence extension,and a maximum average utility upper bound was proposed.Based on this upper bound,effective pruning of candidate patterns was achieved.Experimental results on five real datasets and one synthetic dataset show that compared to the TOUP-dfs and HAOP-ms algorithms,TOUP algorithm reduces the number of candidate patterns by 38.5%to 99.8%and 0.9%to 77.6%,respectively,and decreases the running time by 33.6%to 97.1%and 57.9%to 97.2%,respectively.Therefore,the algorithm performance of TOUP is better,and it can mine patterns of interests to users more efficiently.

作者杨克帅武优西耿萌刘靖宇李艳 YANG Keshuai;WU Youxi;GENG Meng;LIU Jingyu;LI Yan(School of Artificial Intelligence,Hebei University of Technology,Tianjin 300401,China;School of Economics and Management,Hebei University of Technology,Tianjin 300401,China)

机构地区河北工业大学人工智能与数据科学学院河北工业大学经济管理学院

出处《计算机应用》 CSCD 北大核心 2024年第2期477-484,共8页 journal of Computer Applications

基金国家自然科学基金资助项目(61976240)。

关键词数据挖掘序列模式挖掘高平均效用一次性条件 TOP-K data mining sequential pattern mining high average utility one-off condition top-k

分类号 TP311.1 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献4

1韩萌,丁剑.数据流频繁模式挖掘综述[J].计算机应用,2019,39(3):719-727. 被引量：10
2武优西,刘茜,闫文杰,郭磊,吴信东.无重叠条件严格模式匹配的高效求解算法[J].软件学报,2021,32(11):3331-3350. 被引量：5
3单芝慧,韩萌,韩强.动态数据上的高效用模式挖掘综述[J].计算机应用,2022,42(1):94-108. 被引量：4
4王珠林,武优西,王月华,刘靖宇.具有周期间隙约束的负序列模式挖掘[J].计算机科学,2023,50(3):147-154. 被引量：1

二级参考文献25

1李国徽,陈辉.挖掘数据流任意滑动时间窗口内频繁模式[J].软件学报,2008,19(10):2585-2596. 被引量：45
2吴枫,仲妍,吴泉源.基于时间衰减模型的数据流频繁模式挖掘[J].自动化学报,2010,36(5):674-684. 被引量：9
3廖国琼,吴凌琴,万常选.基于概率衰减窗口模型的不确定数据流频繁模式挖掘[J].计算机研究与发展,2012,49(5):1105-1115. 被引量：15
4李海峰,章宁,朱建明,曹怀虎.时间敏感数据流上的频繁项集挖掘算法[J].计算机学报,2012,35(11):2283-2293. 被引量：29
5武优西,刘亚伟,郭磊,吴信东.子网树求解一般间隙和长度约束严格模式匹配[J].软件学报,2013,24(5):915-932. 被引量：14
6慕欢欢,柴玉梅,王黎明.面向数据流的一个高效用项集挖掘算法[J].计算机应用与软件,2015,32(4):283-287. 被引量：4
7柴欣,贾晓菲,武优西,江贺,吴信东.一般间隙及一次性条件的严格模式匹配[J].软件学报,2015,26(5):1096-1112. 被引量：9
8韩萌,王志海,原继东.一种基于时间衰减模型的数据流闭合模式挖掘方法[J].计算机学报,2015,38(7):1473-1483. 被引量：15
9杨皓,段磊,胡斌,邓松,王文韬,秦攀.带间隔约束的Top-k对比序列模式挖掘[J].软件学报,2015,26(11):2994-3009. 被引量：20
10Hao Peng,Jianxin Li,Bo Li,M.Hassan Arif.Fast Multi-Pattern Matching Algorithm on Compressed Network Traffic[J].China Communications,2016,13(5):141-150. 被引量：2

共引文献15

1王少峰,韩萌,贾涛,张春砚,孙蕊.数据流高效用模式挖掘综述[J].计算机应用研究,2020,37(9):2571-2578. 被引量：4
2孙蕊,韩萌,张春砚,申明尧,杜诗语.精简高效用模式挖掘综述[J].计算机应用研究,2021,38(4):975-981. 被引量：2
3杜诗语,韩萌,申明尧,张春砚,孙蕊.基于Boosting的迭代加权集成分类算法[J].计算机应用研究,2021,38(4):1038-1043. 被引量：1
4陈文.数据流序列去掉最值的算法分析[J].福建电脑,2021,37(9):117-119.
5单芝慧,韩萌,韩强.动态数据上的高效用模式挖掘综述[J].计算机应用,2022,42(1):94-108. 被引量：4
6赵晓倩,武优西,王月华,李艳.一种保序序列快速挖掘算法:RSMM[J].郑州大学学报（理学版）,2022,54(4):64-70. 被引量：3
7方世敏.基于频繁模式树的多来源数据选择性集成算法[J].吉林大学学报（工学版）,2022,52(4):885-890. 被引量：1
8严爱俐,刘漫丹.基于动态多最小支持度的用户频繁轨迹挖掘[J].计算机工程与设计,2022,43(6):1657-1664. 被引量：1
9周立波,唐晓杰,汪从敏,夏雯,储源.基于状态监测的无尘作业车间设备检修方法研究[J].自动化与仪器仪表,2022(10):129-132.
10舒越,解庆,刘永坚,唐伶俐.一种基于势能模型的数据流聚类算法[J].计算机应用与软件,2022,39(11):222-230. 被引量：1

1罗洁,王力.基于相似度的Apriori混合算法研究[J].智能计算机与应用,2023,13(8):158-160.
2王放,赵芃沛,李海鸽,王丽妲,赵军超.基于创新序列扩展H_(∞)滤波器的自适应车辆运动估计[J].兵器装备工程学报,2023,44(S02):232-236.
3易彩,林建辉,汪浩,廖小康,吴文逸,冉乐.VMD引导的轮对与轴承复合故障诊断方法[J].西南交通大学学报,2024,59(1):151-159.
4雪洁.基于大数据分析的网络课堂资源自动采集研究[J].信息技术,2023,47(10):101-105.
5帅荚2号[J].山西林业科技,2023,52(4).
6帅荚1号[J].山西林业科技,2023,52(4).
7ALAFATI MUGABO.Institutes of Inspiration[J].ChinAfrica,2024,16(3):42-43.

计算机应用

2024年第2期

浏览历史

内容加载中请稍等...

一次性条件下top-k高平均效用序列模式挖掘算法

参考文献4

二级参考文献25

共引文献15

相关作者

相关机构

相关主题

浏览历史