数据流挖掘分类技术综述被引量：41

A Survey of Classification of Data Streams

下载PDF

导出

摘要数据流挖掘作为从连续不断的数据流中挖掘有用信息的技术,近年来正成为数据挖掘领域的研究热点,并有着广泛的应用前景.数据流具有数据持续到达、到达速度快、数据规模巨大等特点,因此需要新颖的算法来解决这些问题.而数据流挖掘的分类技术更是当前的研究热点.综述了当前国际上关于数据流挖掘分类算法的研究现状,并从数据平稳分布和带概念漂移两个方面对这些方法进行了系统的介绍与分析,最后对数据流挖掘分类技术当前所面临的问题和发展趋势进行了总结和展望. Data streams mining, the technology of getting valuable information from continuous data streams is a field that has recently gained increasingly attention all over the world. In the model of data streams, data does not take the form of persistent relations, but rather arrives in a multiple, continuous, rapid and time-varying way. Because of the rapid data arriving speed and huge size of data set in data streams, novel algorithms are devised to resolve these problems. Among these research topics, classifying methods is an important one. In this review paper, the state-of-the-art in this growing vital field is presented, and theses methods are introduced from two directions： stationary distribution data streams and data streams with concept drift. Finally, the challenges and future work in this field are explored.

作者王涛李舟军颜跃进陈火旺

机构地区国防科学技术大学计算机学院北京航空航天大学计算机学院

出处《计算机研究与发展》 EI CSCD 北大核心 2007年第11期1809-1815,共7页 Journal of Computer Research and Development

基金国家自然科学基金项目(60573057)~~

关键词数据流挖掘分类稳态分布概念漂移 data streams mining classify stationary distribution concept-drift

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献28

1B Babcock,S Babu,M Datar,etal.Models and issues in data streams systems[C].The 21st ACM SIGACT-SIGMOD-SIGART Symp on Priciples of Database Systems,Madison,2002
2P Domingos,G Hulten.Mining high-speed data streams[C].The Assoiciation for Computing Machinery 6th Int'l Conf on Knowledge Discovery and Data Minings,Boston,2000
3R Jin,G Agrawal.Efficient decision tree construction on streaming data[C].The ACM SIGKDD 9th Int'l Conf on Knowledge Discovery and Data Mining,Washington,2003
4S Muthukrishnan.Data streams:Algorithms and applications[C].The 14th Annual ACM-SIAM Symp on Discrete Algorithms,Baltimore,MD,USA,2003
5H Wang,W Fan,P Yu,et al.Mining concept-drifting data streams using ensemble classifiers[C].The 9th ACM Int'l Conf on Knowledge Discovery and Data Mining (SIGKDD),Washington,2003
6Q H Xie.An efficient approach for mining concept-drifting data streams:[Master dissertation][D].Tainan,China:National University of Tainan,2004
7M Guetova,Holldobter,H V Storr.Incremental fuzzy decision trees[C].The 25th German Conf on Artificial Intelligence(KI2002),Aachen,Germany,2002
8杨宜东,孙志挥,张净.基于核密度估计的分布数据流离群点检测[J].计算机研究与发展,2005,42(9):1498-1504. 被引量：8
9钱江波,徐宏炳,董逸生,王永利,刘学军,杨雪梅.基于最小生成树的数据流窗口连接优化算法[J].计算机研究与发展,2007,44(6):1000-1007. 被引量：3
10V Ganti,J Gehrke,R Ramakrishnan.Mining data streams under block evolution[J].SIGMOD Explorations,2002,3(2):1-10

二级参考文献25

1金澈清,钱卫宁,周傲英.流数据分析与管理综述[J].软件学报,2004,15(8):1172-1181. 被引量：161
2钱江波,徐宏炳,王永利,刘学军,董逸生.多数据流滑动窗口并发连接方法[J].计算机研究与发展,2005,42(10):1771-1778. 被引量：10
3S. Muthukrishnan. Data streams algorithms and applications. In:Proc. the 14th Annual ACM-SIAM Symposium on Discrete Algorithms. Philadelphia: Society for Industrial and Applied Mathematics, 2003. 413～413.
4D. Hawkins. Identification of Outliers. London: Chapman and Hall, 1980.
5E.M. Knorr, R. T. Ng. Algorithms for mining distance-based outliers in large datasets. In: Proc. the 24th Int'l Conf. Very Large Databases. New York: ACM Press, 1998. 392～403.
6D. Yu, G. Sheikholeslami, A. Zhang. Findout: Finding outliers in very large datasets. Knowledge and Information Systems,2002, 4(4): 387～412.
7M. M. Breunig, H. Kriegel, R. T. Ng, et al. LOF:identifying density-based local outliers. In: Proc. the 2000 ACM SIGMOD Int'l Conf. Management of Data. New York: ACM Press, 2000. 93～104.
8S. Papadimitirou, H. Kitagawa, P. B. Gibbons, et al. LOCI:Fast outlier detection using the local correlation integral. In: Proc.the 19th Int'l Conf. Data Engineering. Los Alamitos, CA: IEEE Computer Society Press, 2003. 315～326.
9S. Muthukrishnan, R. Shah, J. Vitter. Mining deviants in time series data streams. In: Proc. the 16th Int'l Conf. Scientific and Statistical Database Management. Los Alamitos, CA: IEEE Computer Society Press, 2004. 41～50.
10H. V. Jagadish, N. Koudas, S. Muthukrishnan. Mining deviants in a time series database. In: Proc. the 25th Int'l Conf.Very Large Data Bases. San Francisco: Morgan Kaufmann,1999. 102～113.

共引文献9

1胡雪艳,苏亮,高春鸣.演化数据流上的连续异常检测[J].计算机工程与应用,2008,44(7):174-178.
2侯伟,杨炳儒,吴晨生,周谆.一种基于滑动窗口的多关系模式频度更新算法[J].系统工程与电子技术,2009,31(3):671-676.
3赵宗敏,王洋,吴海涛.数据流多连续查询优化技术[J].计算机应用,2009,29(B12):269-271.
4王海波,王宪鹏,王芳,陈志国.一种基于网格和最小生成树的数据流聚类算法[J].计算机系统应用,2011,20(2):152-156. 被引量：1
5刘耀宗,张宏,孟锦,韩法旺.基于小波密度估计的数据流离群点检测[J].计算机工程,2013,39(2):178-181. 被引量：4
6邹丹,毛政元,李继红,刘小伶.核密度估计的道路匹配方法探讨[J].测绘科学,2015,40(7):104-108. 被引量：1
7夏泽龙,李浩,陈跃红.城市火灾事件时空分布规律与关联规则挖掘[J].消防科学与技术,2017,36(10):1449-1453. 被引量：5
8王康,周治平.高斯核密度估计方法检测健康数据异常值[J].计算机科学与探索,2019,13(12):2094-2102. 被引量：7
9郭金玉,王东琴,李元.基于二阶差商LPP的多模态过程故障检测[J].高校化学工程学报,2020,34(1):182-189. 被引量：4

同被引文献401

1刘小平,黎夏,何晋强,艾彬,彭晓鹃.基于蚁群智能的遥感影像分类新方法[J].遥感学报,2008,12(2):253-262. 被引量：23
2蒋良孝,蔡之华,刘钊.一种基于信息增益的分类规则挖掘算法[J].中南大学学报（自然科学版）,2003,34(z1):69-71. 被引量：8
3刘耀宗,王永利,刘凤玉,张宏.一种自适应概念变化的数据流分类器[J].计算机研究与发展,2007,44(z2):63-68. 被引量：1
4李秋洁,茅耀斌,叶曙光,王执铨.代价敏感Boosting算法研究[J].南京理工大学学报,2013,37(1):19-24. 被引量：3
5金澈清,钱卫宁,周傲英.流数据分析与管理综述[J].软件学报,2004,15(8):1172-1181. 被引量：161
6李泽文.基于Web的数据挖掘技术[J].现代计算机,2004,10(7):29-33. 被引量：10
7贺跃,郑建军,朱蕾.一种基于熵的连续属性离散化算法[J].计算机应用,2005,25(3):637-638. 被引量：15
8宋丽萍,佘光辉.深圳绿化树种选择智能决策支持系统的构建[J].南京林业大学学报（自然科学版）,2005,29(2):87-91. 被引量：3
9李德毅,孟海军,史雪梅.隶属云和隶属云发生器[J].计算机研究与发展,1995,32(6):15-20. 被引量：1246
10沈剑贤,沈炯,李益国,周彬华.人工免疫系统原理及其应用[J].汽轮机技术,2005,47(4):248-257. 被引量：6

引证文献41

1刘二涛.企业电子商务中的客户数据挖掘[J].知识经济,2008(4):126-127. 被引量：1
2李广水,宋丁全.数据分析在森林资源调查中的应用及发展研究[J].安徽农业科学,2009,37(22):10797-10800. 被引量：2
3王大将,孙洁.数据流挖掘技术研究[J].统计与决策,2010,26(7):161-162.
4王锡文,贾银山.基于多分类器集成的数据流分类方法[J].科学技术与工程,2010,10(18):4521-4524. 被引量：1
5薛小锋.数据流挖掘的关键问题研究[J].煤炭技术,2010,29(12):165-166.
6辛轶,郭躬德,陈黎飞,毕亚新.IKnnM-DHecoc:一种解决概念漂移问题的方法[J].计算机研究与发展,2011,48(4):592-601. 被引量：13
7闫纪红,王伟,卢磊.基于人工免疫的故障诊断模型自动更新算法[J].计算机集成制造系统,2011,17(4):838-845. 被引量：4
8陈丙杰,王晓晔,常飞.噪声数据流的分类方法[J].天津理工大学学报,2011,27(3):37-41. 被引量：2
9李小斌,李世银.AdBagging:自适应抽样参数在线装袋算法[J].计算机工程与设计,2011,32(12):4095-4099. 被引量：2
10刘伍颖,王挺.结构化集成学习垃圾邮件过滤[J].计算机研究与发展,2012,49(3):628-635. 被引量：12

二级引证文献164

1张艳红,侯芸,董元帅.基于XGboost的省级路面技术状况指标衰变预测[J].武汉理工大学学报,2021,43(7):48-54. 被引量：2
2刘允峰,佟季萱,叶应图.动态数据流集成分类算法综述[J].渤海大学学报（自然科学版）,2023,44(1):79-91.
3许冠英,韩萌,王少峰,贾涛.数据流集成分类算法综述[J].计算机应用研究,2020,37(1):1-8. 被引量：11
4刘月铮.测试代价敏感的F-粗糙集方法[J].电子技术（上海）,2021,50(4):61-63.
5郭晓晨.电子商务中的web数据挖掘应用研究[J].长春理工大学学报（高教版）,2012(7):55-56. 被引量：2
6张明光.如何开展县(市,区)"三讲"教育巡视组工作[J].理论学习（浙江）,2000(3):28-29.
7申铉京,何月,张博,龙建武.基于空间信息及隶属度约束的FCM图像分割算法[J].北京工业大学学报,2012,38(7):1073-1078. 被引量：6
8李南,郭躬德,陈黎飞.基于少量类标签的概念漂移检测算法[J].计算机应用,2012,32(8):2176-2181. 被引量：7
9郭躬德,李南,陈黎飞.一种适应概念漂移数据流的分类算法[J].山东大学学报（工学版）,2012,42(4):1-7. 被引量：2
10田飞.陕北地区黄土高原林业资源发展存在的问题及对策[J].现代农业科技,2012(21):206-207. 被引量：2

1陈猛,楚广琳.数据流分类研究综述[J].科技信息,2012(22):239-240.
2王涛,李舟军,颜跃进,陈火旺.人工智能数据流挖掘分类技术综述[J].中国学术期刊文摘,2008,14(10):8-8.
3吴琼,周维民,李运田.基于Adaboost分类算法的优化研究与应用[J].工业控制计算机,2013,26(12):90-92.
4李红梅,郝文宁,陈刚.基于改进LSH的协同过滤推荐算法[J].计算机科学,2015,42(10):256-261. 被引量：13
5何照文,宁芊,雷印杰.改进退火遗传算法在SQL数据挖掘参数优化中的应用[J].计算机测量与控制,2015,23(10):3525-3528. 被引量：1
6王伟,孙俊,张继国.IP网络选择性丢弃流量的性能分析[J].微计算机信息,2006,22(07X):246-247.
7马友忠,贾世杰,张永新.基于卡方分布的高维数据相似性连接查询算法[J].计算机应用,2016,36(7):1993-1997. 被引量：2
8陈旭辉,李尘,柯铭,郝泽龙.时间连续马尔可夫链的复杂网络上SIRS模型分析[J].计算机科学,2014,41(10):117-121. 被引量：2
9李元平,李华,赵俊岚.基于时间着色Petri网的OpenFlow协议建模研究[J].华中科技大学学报（自然科学版）,2016,44(S1):35-42. 被引量：3
10孙贺,朱洪.基于Hamming范数的XML流相关性估测算法[J].软件学报,2010,21(4):672-679.

计算机研究与发展

2007年第11期

浏览历史

内容加载中请稍等...

数据流挖掘分类技术综述被引量：41

参考文献28

二级参考文献25

共引文献9

同被引文献401

引证文献41

二级引证文献164

相关作者

相关机构

相关主题

浏览历史

数据流挖掘分类技术综述 被引量：41

参考文献28

二级参考文献25

共引文献9

同被引文献401

引证文献41

二级引证文献164

相关作者

相关机构

相关主题

浏览历史

数据流挖掘分类技术综述被引量：41