基于Storm的流数据KNN分类算法的研究与实现被引量：7

Research and Implementation of KNN classification algorithm for streaming data based on Storm

下载PDF

导出

摘要 KNN算法是一种简单、有效且易于实现的分类算法,可用于类域较大的分类。近年来对KNN算法的研究偏向于静态大数据集,不过,在越来越多的情况下要用KNN算法在线实时处理流数据。考虑到流式数据流量大,连续且快速,不易存储和恢复等特性,以及流处理系统Storm对流数据处理具有实时性、可靠性的特点,提出了基于Storm的流数据KNN分类算法,该算法首先对整个样本集进行划分,形成多个片集,然后计算出待分类向量在各片集上的K近邻,最后再将所有片集K近邻归约得出整体K近邻,实现待分类向量的分类。实验结果表明,基于Storm的流数据KNN分类算法能够满足大数据背景下对流数据分类的高吞吐量、可扩展性、实时性和准确性的要求。 KNN(K-Nearest Neighbor)algorithm is a kind of classification algorithm which is simpler,more effective andeasier to implement.It can be applied in the classification for larger data domain.In recent years,KNN algorithm hasbeen paid great attention to study static big data sets,however,KNN algorithm has to be processed the streaming data setsonline in more and more scenarios.Considering the streaming data with the characteristics of large,continuous,fast,noteasy to store and restore;and the streaming processing system Storm with the characteristics of real-time and reliability,amodified KNN is proposed,which implements KNN on Strom to classify the streaming data online.By partitioning thewhole sample set into multiple piece sets first,it then computes KNN of those to-be-classified vectors on each pieceset,finally,the KNN are reduced to the whole KNN,thereby to achieve the classification of the to-be-classified vectors.Experiment results show that the proposed algorithm is able to meet the requirements of high throughput,scalability,real-time and accuracy for the classification of streaming data on the big data background.

作者周志阳冯百明杨朋霖温向慧 ZHOU Zhiyang;FENG Baiming;YANG Penglin;WEN Xianghui(College of Computer Science and Engineering, Northwest Normal University, Lanzhou 730070, China)

机构地区西北师范大学计算机科学与工程学院

出处《计算机工程与应用》 CSCD 北大核心 2017年第19期71-75,97,共6页 Computer Engineering and Applications

基金国家自然科学基金(No.61462076 No.61662067)

关键词 STORM KNN算法流数据大数据数据划分 Storm K-Nearest Neighbor(KNN) streaming data big data data partition

分类号 TP301 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献5

1孙大为,张广艳,郑纬民.大数据流式计算:关键技术及系统实例[J].软件学报,2014,25(4):839-862. 被引量：313
2宋驰,刘国华.流数据技术及其应用现状[J].燕山大学学报,2005,29(2):128-131. 被引量：4
3王考杰,郑雪峰,宋一丁,曲阜平.面向轨迹数据流的KNN近似查询[J].计算机工程,2011,37(16):17-20. 被引量：4
4闫永刚,马廷淮,王建.KNN分类算法的MapReduce并行化实现[J].南京航空航天大学学报,2013,45(4):550-555. 被引量：21
5杨铭,陈建峰.基于CUDA的海量点云数据kNN查询算法[J].测绘通报,2012(S1):394-398. 被引量：3

二级参考文献35

1SirishChandrasekaran, Michael J. Franklin. Streaming Queries over StreamingData [C]. VLDB, 2002: 203-214.
2Like Gao, X Sean Wang. Improving the Performance of Continuous Queries on Fast Data Streams: Time Series Case [C]. DMKD,2002.
3Alfons Kemper, Bernhard Stegmaier. Evaluating BestmatchJoins on Streaming Data [Z]. 2002.
4Jianjun Chen, David J. Dewitt, Feng Tian, Yuan Wang. NiagaraCQ:A Scalable Continuous Query System for Internet Databases [C].SIGMOD, 2000: 379-390.
5AVNURR, HellersteinJ. Eddies: Continuously Adaptive Query Processing [C]. SIGMOD, 2000: 261-272.
6Samuel Madden, Mehul Shah, Joseph M Hellerstein. Continuous Adaptive Continuous Queries Over Stream [C]. SIGMOD, 2001:49-60.
7Roussopoulos N,Kelley S,Vincent F.Nearest neighbor queries. Proceedings of the 1995 ACM SIGMOD International Conference on Management of Data . 1995
8Sunil Arya,David M Mount,Nathan S Netanyahu,et al.An optimal algorithm for approximate nearest neighbor searching in fixed dimensions. Journal of the ACM . 1998
9Jagan Sankaranarayanan,,Hanan Samet,Amitabh Varshney.A fast all nearest neighbor algorithm for applications involving large point-clouds. Computers and Graphics . 2007
10CLARKSON K L.Fast algorithm for the all nearest neighbors problem. Proceedings of the 24th IEEE annual symposium on foundations of computer science . 1983

共引文献340

1张彦,谢兴生,陈晓雨.一种处理大数据的复杂适应系统框架设计[J].电子技术（上海）,2021,50(3):22-25.
2黄泽文,夏士雄,夏战国,周勇.数据流操作符实时调度策略研究[J].微计算机信息,2007,23(33):220-222. 被引量：1
3冯馨锐,谢彬,唐鹏,秦健.Storm集群下基于性能感知的负载均衡策略[J].计算机系统应用,2018,27(12):181-186. 被引量：1
4黄黎,顾筠.基于Hadoop平台的并行化数据分类算法研究[J].制造业自动化,2014,36(14):5-9. 被引量：4
5孙艳英.一种关于目标与安全管道相对位置估算方法[J].海军航空工程学院学报,2014,29(4):306-310. 被引量：2
6程学旗,靳小龙,王元卓,郭嘉丰,张铁赢,李国杰.大数据系统和分析技术综述[J].软件学报,2014,25(9):1889-1908. 被引量：741
7徐菲菲,雷景生,毕忠勤,苗夺谦,杜海舟.大数据环境下多决策表的区间值全局近似约简[J].软件学报,2014,25(9):2119-2135. 被引量：22
8王勇,许钟涛,王瑛.大数据环境下竞争情报系统的研究与实现[J].广东工业大学学报,2014,31(3):27-31. 被引量：9
9崔星灿,禹晓辉,刘洋,吕朝阳.分布式流处理技术综述[J].计算机研究与发展,2015,52(2):318-332. 被引量：50
10涂敬伟,皮建勇.基于MapReduce和分布式缓存的KNN分类算法研究[J].微型机与应用,2015,34(2):18-21. 被引量：2

同被引文献42

1陶志勇,李小兵,刘影,刘晓芳.基于双向长短时记忆网络的改进注意力短文本分类方法[J].数据分析与知识发现,2019,3(12):21-29. 被引量：23
2蒋春平,黄煜骁,周晓君.基于Kudu的实时业务应用场景解决方案[J].电信科学,2020,36(S01):268-275. 被引量：3
3刘星.HBase性能深度分析[J].程序员,2011(7):102-104. 被引量：3
4辛大欣,刘飞.Hadoop集群性能优化技术研究[J].电脑知识与技术,2011,7(8):5484-5486. 被引量：9
5王健峰,张磊,陈国兴,何学文.基于改进的网格搜索法的SVM参数优化[J].应用科技,2012,39(3):28-31. 被引量：124
6蒋亦樟,邓赵红,王骏,葛洪伟,王士同.基于知识利用的迁移学习一般化增强模糊划分聚类算法[J].模式识别与人工智能,2013,26(10):975-984. 被引量：16
7贾瑞玉,管玉勇,李亚龙.基于MapReduce模型的并行遗传k-means聚类算法[J].计算机工程与设计,2014,35(2):657-660. 被引量：22
8孙大为,张广艳,郑纬民.大数据流式计算:关键技术及系统实例[J].软件学报,2014,25(4):839-862. 被引量：313
9耿丽娟,李星毅.用于大数据分类的KNN算法研究[J].计算机应用研究,2014,31(5):1342-1344. 被引量：62
10吴晓玲,邱珍珍.基于云存储架构的分布式大数据安全容错存储算法[J].中国电子科学研究院学报,2018,13(6):720-724. 被引量：20

引证文献7

1李浩光.大数据网络分布式独立内存分配算法研究[J].科技通报,2021,37(4):37-41.
2田璐,齐林海,李青,王红,田世明,卜凡鹏.基于Spark Streaming的电力流式大数据分析架构及应用[J].电力信息与通信技术,2019,17(2):23-29. 被引量：13
3薛小娜,高淑萍,彭弘铭,吴会会.结合K近邻的改进密度峰值聚类算法[J].计算机工程与应用,2018,54(7):36-43. 被引量：22
4邹劲松,李芳.大数据下的分布式精确模糊KNN分类算法[J].计算机应用研究,2019,36(12):3701-3704. 被引量：4
5汪丽娟,钱育蓉,侯海耀,张晗,赵京霞,赵燚.基于k-d树分区的聚类算法并行加速策略[J].计算机工程与设计,2019,40(12):3437-3442. 被引量：3
6曹成,陶继群,郑湃.基于Kudu的电力辅助设备实时监控业务解决方案[J].科技创新与应用,2021(8):130-134. 被引量：2
7李启行,廖薇,孟静雯.基于注意力机制的双通道DAC-RNN文本分类模型[J].计算机工程与应用,2022,58(16):157-163. 被引量：12

二级引证文献56

1滑江,孙钰,周彦斌,蔡曙日,龚尚文.基于K-means方法的气象数据分区在公路养护的应用[J].公路交通科技,2022,39(S01):19-23. 被引量：1
2杜沛,程晓荣.一种基于K近邻的比较密度峰值聚类算法[J].计算机工程与应用,2019,55(10):161-168. 被引量：12
3牛少章,欧毓毅,凌捷,顾国生.利用区域划分的多密度快速聚类算法[J].计算机工程与应用,2019,55(18):61-66. 被引量：2
4杨丹,姜华,张玉军,赵骥.“大数据技术”实验教学环境构建研究[J].实验技术与管理,2019,36(11):193-196. 被引量：10
5王军华,李建军,李俊山,赖文达.自适应快速搜索密度峰值聚类算法[J].计算机工程与应用,2019,55(24):122-127. 被引量：9
6赵燕伟,朱芬,桂方志,任设东,谢智伟,徐晨.融合可拓关联函数的密度峰值聚类算法[J].小型微型计算机系统,2019,40(12):2512-2518. 被引量：8
7戚红雨.流式处理框架发展综述[J].信息化研究,2019,45(6):1-8. 被引量：9
8何云斌,董恒,万静,李松.基于密度峰值和近邻优化的聚类算法[J].计算机科学与探索,2020,14(4):554-565. 被引量：7
9钱雪忠,金辉.自适应聚合策略优化的密度峰值聚类算法[J].计算机科学与探索,2020,14(4):712-720. 被引量：11
10黄光华,殷锋,冯九林.一种交叉验证和距离加权方法改进的KNN算法研究[J].西南民族大学学报（自然科学版）,2020,46(2):172-177. 被引量：7

1王磊.浅析大数据平台展现分析优势[J].数码世界,2017,0(10):180-180.
2业内声音[J].江苏通信,2011,27(5):9-9.
3张莉娜,吴伟,程旭明,胡勇.基于电力大数据的多维聚合技术研究[J].数字技术与应用,2017,35(8):40-41. 被引量：1
4徐勇.数据分析和图书馆数据化[J].中小企业管理与科技,2017,1(23):112-113.
5麦茨纳.未来结构化布线热点—数据流量[J].互联网世界,2000(5):51-51.
6金毛冲进大海救回一头溺水的小鹿[J].中国工作犬业,2017,0(9):63-63.
7侯平智,张明,徐晓滨,黄大荣.基于K近邻证据融合的故障诊断方法[J].控制与决策,2017,32(10):1767-1774. 被引量：14
8刘越.个人信息、数据的权属[J].人民法治,2017(9):14-16. 被引量：3
9熊安萍,王贤稳,邹洋.基于Storm拓扑结构热边的调度算法[J].计算机工程,2017,43(1):37-42. 被引量：14
10中国全面步入“流量社会”[J].江淮,2017,0(8):51-51.

计算机工程与应用

2017年第19期

浏览历史

内容加载中请稍等...

基于Storm的流数据KNN分类算法的研究与实现被引量：7

参考文献5

二级参考文献35

共引文献340

同被引文献42

引证文献7

二级引证文献56

相关作者

相关机构

相关主题

浏览历史

基于Storm的流数据KNN分类算法的研究与实现 被引量：7

参考文献5

二级参考文献35

共引文献340

同被引文献42

引证文献7

二级引证文献56

相关作者

相关机构

相关主题

浏览历史

基于Storm的流数据KNN分类算法的研究与实现被引量：7