流数据分析与管理综述被引量：161

Analysis and Management of Streaming Data: A Survey

下载PDF

导出

摘要有关流数据分析与管理的研究是目前国际数据库研究领域的一个热点.在过去30多年中,尽管传统数据库技术发展迅速且得到了广泛应用,但是它不能够处理在诸如网络路由、传感器网络、股票分析等应用中所生成的一种新型数据,即流数据.流数据的特点是数据持续到达,且速度快、规模宏大;其研究核心是设计高效的单遍数据集扫描算法,在一个远小于数据规模的内存空间里不断更新一个代表数据集的结构棗概要数据结构,使得在任何时候都能够根据这个结构迅速获得近似查询结果.综述国际上关于流数据的概要数据结构生成与维护的研究成果,并通过列举解决流数据上两个重要问题的各种方案来比较各种算法的特点以及优劣. The study on streaming data is one of the hot topics among the database circle all over the world recently. During the past three decades, conventional database technologies are well developed and widely applied. Unfortunately, they could not be adopted to handle a new kind of data, named streaming data, which is generated from applications such as network routing, sensor networking, stock analysis, etc. Because of the rapid data arriving speed and huge size of data set in stream model, novel algorithms that only require seeing the whole data set once are devised to support aggregation queries on demand. In addition, this kind of algorithms usually owns a data structure far smaller than the size of the whole data set. The ways to devise such synopsis data structures are introduced. These different approaches are also compared by listing historical works upon two classical problems over stream.

作者金澈清钱卫宁周傲英

机构地区复旦大学计算机科学与工程学系

出处《软件学报》 EI CSCD 北大核心 2004年第8期1172-1181,共10页 Journal of Software

基金国家高技术研究发展计划(863)~~

关键词流数据概要数据结构界标模型滑动窗1:3模型 Algorithms Data structures Mathematical models

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献52

1Babcock B, Babu S, Datar M, Motwani R, Widom J. Models and issues in data streams. In: Popa L, ed. Proc. of the 21st ACM SIGACT-SIGMOD-SIGART Symp. on Principles of Database Systems. Madison: ACM Press, 2002. 1～16.
2Terry D, Goldberg D, Nichols D, Oki B. Continuous queries over append-only databases. SIGMOD Record, 1992,21(2):321-330.
3Avnur R, Hellerstein J. Eddies: Continuously adaptive query processing. In: Chen W, Naughton JF, Bernstein PA, eds. Proc. of the 2000 ACM SIGMOD Int'l Conf. on Management of Data. Dallas: ACM Press, 2000. 261～272.
4Hellerstein J, Franklin M, Chandrasekaran S, Deshpande A, Hildrum K, Madden S, Raman V, Shah MA. Adaptive query processing: Technology in evolution. IEEE Data Engineering Bulletin, 2000,23(2):7-18.
5Carney D, Cetinternel U, Cherniack M, Convey C, Lee S, Seidman G, Stonebraker M, Tatbul N, Zdonik S. Monitoring streams?A new class of DBMS applications. Technical Report, CS-02-01, Providence: Department of Computer Science, Brown University, 2002.
6Guha S, Mishra N, Motwani R, O'Callaghan L. Clustering data streams. In: Blum A, ed. The 41st Annual Symp. on Foundations of Computer Science, FOCS 2000. Redondo Beach: IEEE Computer Society, 2000. 359-366.
7Domingos P, Hulten G. Mining high-speed data streams. In: Ramakrishnan R, Stolfo S, Pregibon D, eds. Proc. of the 6th ACM SIGKDD Int'l Conf. on Knowledge Discovery and Data Mining. Boston: ACM Press, 2000. 71-80.
8Domingos P, Hulten G, Spencer L. Mining time-changing data streams. In: Provost F, Srikant R, eds. Proc. of the 7th ACM SIGKDD Int'l Conf. on Knowledge Discovery and Data Mining. San Francisco: ACM Press, 2001. 97～106.
9Zhou A, Cai Z, Wei L, Qian W. M-Kernel merging: Towards density estimation over data streams. In: Cha SK, Yoshikawa M, eds. The 8th Int'l Conf. on Database Systems for Advanced Applications (DASFAA 2003). Kyoto: IEEE Computer Society, 2003. 285～292.
10Gibbons PB, Matias Y. Synopsis data structures for massive data sets. In: Tarjan RE, Warnow T, eds. Proc. of the 10th Annual ACM-SIAM Symp. on Discrete Algorithms. Baltimore: ACM/SIAM, 1999. 909-910.

同被引文献1634

1曲俊义.篮球运动动员的气质类型与战术位置研究[J].北京体育大学学报,2007,30(S1):152-153. 被引量：4
2刘云生,邓华锋,代一尘,马抄武.存储特定流数据的通用框架[J].华中科技大学学报（自然科学版）,2005,33(z1):253-256. 被引量：4
3邝祝芳,阳国贵,辛动军.SWFPM:一种有效的数据流频繁项挖掘算法[J].计算机应用研究,2009,26(2):466-469. 被引量：4
4林国平,陈磊松.一种网格和分形维数的数据流聚类算法[J].郑州大学学报（理学版）,2009,41(2):24-28. 被引量：2
5ZHONG DengHua,CUI Bo,LIU DongHai,TONG DaWei.Theoretical research on construction quality real-time monitoring and system integration of core rockfill dam[J].Science China(Technological Sciences),2009,52(11):3406-3412. 被引量：61
6王佳林,王斌,杨晓春.面向不确定时间序列的分类方法[J].计算机研究与发展,2011,48(S3):31-39. 被引量：5
7冯保红,王煜.控制系统动态马尔可夫过程可靠性分析[J].控制工程,2011,18(S1):1-4. 被引量：3
8张玉,方滨兴,张永铮.高速网络监控中大流量对象的识别[J].中国科学：信息科学,2010,40(2):340-355. 被引量：11
9李洁,高新波,焦李成.一种基于GA的混合属性特征大数据集聚类算法[J].电子与信息学报,2004,26(8):1203-1209. 被引量：9
10张保会.加强继电保护与紧急控制系统的研究提高互联电网安全防御能力[J].中国电机工程学报,2004,24(7):1-6. 被引量：227

引证文献161

1田李,王乐,贾焰,邹鹏,李爱平.分布式数据流上低通信开销的连续极值查询方法研究[J].计算机研究与发展,2007,44(z3):61-66.
2陈飞波,钱卫宁,周傲英.基于最窄平行四边形的数据流突变检测算法[J].计算机研究与发展,2007,44(z3):505-510.
3何月梅,杜海艳,王保民.分形技术与矢量量化相结合的网络流量异常检测研究[J].邯郸学院学报,2009,19(3):73-76.
4秦林新,刘奇志.一种乱序数据流上的偏倚抽样算法[J].计算机研究与发展,2011,48(S3):298-303.
5张明明,芦琳.电能计量中的异常数据研究[J].电气应用,2013,0(S1):42-46. 被引量：2
6金澈清,崇志宏,周傲英.一种实时监控最近邻的近似算法[J].计算机科学与探索,2007,1(2):146-159.
7杨宜东,孙志挥,张净.基于核密度估计的分布数据流离群点检测[J].计算机研究与发展,2005,42(9):1498-1504. 被引量：8
8杜威,邹先霞.基于数据流的滑动窗口机制的研究[J].计算机工程与设计,2005,26(11):2922-2924. 被引量：11
9刘赏,黄亚楼,倪维健.流数据聚类模型变化检测策略[J].计算机工程与应用,2006,42(5):15-18.
10彭宏,刘洋,邓维维,郑启伦.股票数据流的相关性计算方法[J].华南理工大学学报（自然科学版）,2006,34(1):86-89. 被引量：9

二级引证文献1516

1贾凡,熊刚,朱凤华,田滨,韩双双,陈世超.基于MQTT的工业物联网通信系统研究与实现[J].智能科学与技术学报,2019,1(3):249-259. 被引量：19
2张铃珠.基于因子分析的配变运行状态评估[J].中国新技术新产品,2020(15):1-4. 被引量：1
3贾曲,田建艳,郑晟,王芳,张苏楠.基于超声波技术的生猪饮食异常监测系统[J].畜牧与兽医,2020,0(2):35-39. 被引量：2
4王芳,赵洪.数据溯源研究与实践进展[J].情报学进展,2020(1):313-353. 被引量：9
5朱东坡,谢斌,王若茹,王心怡,王国亮.基于大数据的网格负荷精准预测[J].河南电力,2019,47(S01):32-37. 被引量：1
6叶嘉敏.算法风险防控视域下企业数据权利的三维构建研究[J].江西财经大学学报,2021(1):139-148. 被引量：7
7金泳,高扬华,潘晓华,沈诗婧,朱心洲.采用数据血缘的数据热度预测方法[J].计算机应用,2023,43(S01):119-125. 被引量：3
8李珩,魏宏昌.船舶无线网络通信过程差错数据智能检测方法[J].舰船科学技术,2019,0(24):106-108. 被引量：1
9孟蕾.化学检验软件对于精密数据的处理[J].化学工程与装备,2020(12):275-276.
10周迪民.云计算的智能交通应用系统[J].办公自动化,2020(24):56-57. 被引量：3

1蔡妮明,王翰虎,陈梅.一种基于滑动窗口的流数据聚类算法[J].计算机技术与发展,2011,21(1):23-26. 被引量：1
2李娜,邢长征.时间滑动窗口内基于密度的数据流聚类算法[J].计算机应用,2011,31(5):1363-1366. 被引量：5
3王丹.数据流概要数据的合并性研究分析[J].无线互联科技,2013,10(11):95-95.
4张天成,岳德君,于戈,林树宽,谷峪.数据流挖掘研究及其进展[J].小型微型计算机系统,2008,29(12):2241-2246. 被引量：5
5胡彧,闫巧梅.滑动窗口模型下的优化数据流聚类算法[J].计算机应用,2008,28(6):1414-1416. 被引量：6
6胡彧,闫巧梅.基于滑动窗口的流数据聚类算法研究[J].计算机工程与设计,2008,29(21):5621-5623. 被引量：4
7朱英.嵌入式移动数据库及其相关问题[J].桂林电子工业学院学报,2003,23(3):26-31. 被引量：15
8张晓龙,曾伟.实时数据流聚类的研究新进展[J].计算机工程与设计,2009,30(9):2177-2181. 被引量：5
9富春岩,葛茂松,刘艳玲.小波方法在数据流中的应用[J].佳木斯大学学报（自然科学版）,2006,24(3):343-345.
10苏勇,都彬,胡昊.相似性挖掘在时间序列数据中的应用研究[J].软件导刊,2011,10(10):142-144.

软件学报

2004年第8期

浏览历史

内容加载中请稍等...

流数据分析与管理综述被引量：161

参考文献52

同被引文献1634

引证文献161

二级引证文献1516

相关作者

相关机构

相关主题

浏览历史

流数据分析与管理综述 被引量：161

参考文献52

同被引文献1634

引证文献161

二级引证文献1516

相关作者

相关机构

相关主题

浏览历史

流数据分析与管理综述被引量：161