Hadoop平台的海量数据并行随机抽样被引量：11

Massive data parallel random sampling based on hadoop

下载PDF

导出

摘要在"信息爆炸"的当今社会,海量数据对数据挖掘提出新的挑战。在数据挖掘转向云计算平台实现并行化的同时,研究并行化数据随机抽样进一步降低处理的数据规模。提出一种单次扫描即可实现清理脏数据并实现等概率抽样的mapreduce并行抽样算法。在hadoop平台上实现并与普通随机抽样方法进行比较,得出其时间效率非常高,是一种行之有效的方法。为以后数据挖掘中的抽样研究和推动数据挖掘在海量数据下的发展奠定良好基础。 In today’s“information explosion”society, data mining, because of mass data, faces a new challenges. When data mining turns to cloud computing platform to realize parallel, the study of parallel data random sampling further reduces the size of the data size. This paper presents a mapreduce parallel sampling algorithm which not only can clean up dirty data but also achieves the goal of equal probability sampling. The algorithm just needs to scan processed data only one time. It runs this algorithm in the hadoop platform and compares its performance with common random sampling. As a result, this new algorithm obtains a very high time efficiency. It is a kind of effective method which lays a good founda-tion for doing research on sampling in future. It can also promote data mining in the condition of facing mass data.

作者宛婉周国祥

机构地区合肥工业大学计算机与信息学院

出处《计算机工程与应用》 CSCD 2014年第20期115-118,共4页 Computer Engineering and Applications

关键词云计算 HADOOP MAPREDUCE 并行计算数据挖掘随机抽样 cloud computing hadoop mapreduce parallel computing data mining random sampling

分类号 TP391.12 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献15

1Dean J,Ghemawat S.MapReduce:simplified data processing on large cluster[J].Communications of the ACM,2008,51(1):107-113.
2Hadoop streaming[EB/OL].[2011-12-23].http://hadoop.apache.org/common/docs/r0.15.2//streaming.html.
3Hadoop T W.The definitive guide[M].[S.l.]:YAHOO!Press,2009.
4李建江,崔健,王聃,严林,黄义双.MapReduce并行编程模型研究综述[J].电子学报,2011,39(11):2635-2642. 被引量：187
5Langendoen K,Romein J,Bhoedjang R,et al.Integrating polling,interrupts,and thread management[C]//Proceedings of the 6th Symposium on the Frontiers of Massively Parallel Computation.Los Alamitos:IEEE Computer Society,1996:13-22.
6Wenisch T F,Wunderlich R E,Falsafi B,et al.Statistical sampling of microarchitecture simulation[C]//20th International Parallel and Distributed Processing Symposium,2006.
7Bryan P D,Conte T M.Combining cluster sampling with single pass methods for efficient sampling regimen design[C]//25th International Conference on Computer Design,2007.
8Liu Tantan,Wang Fan,Agrawal G.Stratified sampling for data mining on the deep web[C]//2010 IEEE 10th International Conference on Data Mining(ICDM),2010.
9高纳德.计算机程序设计艺术第一卷[M].北京:国防工业出版社,2007.
10谢桂兰,罗省贤.基于Hadoop MapReduce模型的应用研究[J].微型机与应用,2010,29(8):4-7. 被引量：69

二级参考文献59

1王星.关联规则的序贯抽样算法比较研究[J].计算机工程与应用,2005,41(1):27-29. 被引量：2
2王星.对一个关联规则序贯抽样算法的改进与效率分析[J].统计与决策,2005,21(03X):8-10. 被引量：3
3陆如松,闪四清.基于抽样策略的关联规则算法[J].大众科技,2006,8(2):52-53. 被引量：1
4李梅花,王黎明,许红涛.利用抽样技术和元学习的分布式关联规则挖掘算法[J].计算机应用,2006,26(4):872-874. 被引量：3
5李宏,陈松乔,杜剑峰,陈建二.基于抽样的分布式约束性关联规则挖掘算法研究[J].计算机科学,2006,33(7):190-195. 被引量：2
6宁焕生,张瑜,刘芳丽,刘文明,渠慎丰.中国物联网信息服务系统研究[J].电子学报,2006,34(B12):2514-2517. 被引量：151
7WHITE T.Hadoop,the definitive guide[M].O'Reilly Media,Inc,2009.
8DEAN J,GHEMAWAT S.MapReduee:simplified data processing on large clusters.[C]//Proc of the 6th Symposium on Operating Systems Design and Implementation.San Francisco:Google Inc,2004.
9Hadoop官方文档:http://hadoop.apache.org/common/docs/r0.18.2/cn/mapred_tutorial.html,2008.
10J Dean,S Ghemawat.MapReduce:Simplified data processing on large clusters[J].Communications of the ACM,2008,51(1):107-113.

共引文献378

1桂智明,向宇,李玉鉴.基于出租车轨迹的并行城市热点区域发现[J].华中科技大学学报（自然科学版）,2012,40(S1):187-190. 被引量：22
2张晓冉,舒昝.面向ETL数据处理过程的优化研究[J].自动化与仪器仪表,2016(7):109-110. 被引量：3
3王卫平,郭长旺.基于文本挖掘的企业竞争情报系统[J].现代情报,2004,24(9):188-189. 被引量：7
4刘爽英,张静.基于SQL Server 2000的数据仓库和数据挖掘[J].华北工学院学报,2004,25(5):322-324. 被引量：8
5万安华 ,王绵森 ,毛卫华 .数据挖掘技术的理论及应用[J].大学数学,2004,20(6):111-114. 被引量：5
6杨才峰,周彦辉.罪犯心理矫治的信息技术对策[J].中国监狱学刊,2005,20(1):59-63.
7宾宁,李宏,陈松乔.基于SPRINT分类算法的异构分布式数据挖掘研究[J].计算机测量与控制,2005,13(1):76-78. 被引量：6
8黄晶晶,倪天倪.分类挖掘在大学生智能评估系统中的设计与实现[J].计算机与现代化,2005(3):96-98. 被引量：6
9刘强,张怀伟.网络监视器系统设计研究[J].计算机工程与设计,2005,26(3):822-823. 被引量：1
10邹宏,陈海,魏勍颋.基于数据挖掘的入侵检测技术研究[J].计算机与现代化,2005(4):39-41. 被引量：6

同被引文献108

1黄虎元.轮换样本抽样下的回归估计[J].统计与信息论坛,1997,12(3):6-10. 被引量：2
2钟守洋.抽样回归估计方法的应用[J].统计与决策,1986,2(1):18-20. 被引量：1
3彤季.抽样调查(Ⅴ)——第四讲比估计与回归估计[J].数理统计与管理,1987,6(5):41-49. 被引量：1
4崔杰,李陶深,兰红星.基于Hadoop的海量数据存储平台设计与开发[J].计算机研究与发展,2012,49(S1):12-18. 被引量：141
5周家帅,王琦,高军.一种基于动态划分的MapReduce负载均衡方法[J].计算机研究与发展,2013,50(S1):369-377. 被引量：11
6韩蕾,孙徐湛,吴志川,陈立军.MapReduce上基于抽样的数据划分最优化研究[J].计算机研究与发展,2013,50(S2):77-84. 被引量：13
7袁卫,刘文卿,黎樟林.中国农产量抽样调查的回归估计[J].统计研究,1994,11(4):37-39. 被引量：1
8金莹,牛美玲,汤银才.整群抽样总体均值的回归估计[J].统计与决策,2005,21(11S):4-5. 被引量：2
9俞纯权.二阶抽样下的比估计与回归估计[J].统计与决策,2006,22(1):24-27. 被引量：2
10李玉荣,杨树强,贾焰,周斌,樊宇.分布式日志服务关键技术研究[J].计算机工程与应用,2006,42(7):116-118. 被引量：5

引证文献11

1单凯,高仲合,李凤银.云计算环境下的P2P流量识别[J].计算机工程与应用,2015,51(19):88-92. 被引量：1
2王刚,李盛恩.MapReduce中数据倾斜解决方法的研究[J].计算机技术与发展,2016,26(9):201-204. 被引量：3
3陈勇.一种基于云计算的大数据关联规律挖掘分析方法[J].无线电工程,2017,47(3):8-11. 被引量：13
4茹蓓,李虹.海量数据干扰下冗余数据高性能消除方法[J].沈阳工业大学学报,2017,39(6):686-690. 被引量：4
5周国军.基于Hadoop的多关键字排序方法研究[J].计算机工程与应用,2016,52(17):79-83. 被引量：1
6刘朵,曾锋,陈志刚,姚亦韬.Hadoop平台中一种Reduce负载均衡贪心算法[J].计算机应用研究,2016,33(9):2656-2659. 被引量：12
7王玮,严文涛,苏琦,刘荫,于展鹏,殷齐林,赵宪佳,孙更新.基于Hadoop的客服运维文本聚类算法研究[J].青岛大学学报（工程技术版）,2018,33(1):59-64.
8张骁,应时,张韬.应用软件运行日志的收集与服务处理框架[J].计算机工程与应用,2018,54(10):81-89. 被引量：14
9黄伟建,贾孟玉,黄亮.并行随机抽样贪心算法分区的MapReduce负载均衡研究[J].现代电子技术,2020,43(16):170-173. 被引量：3
10曾乐,孙超,张来恩,陈文琴.基于大数据技术的气象业务监视数据采集处理[J].计算机仿真,2021,38(7):181-188. 被引量：16

二级引证文献67

1邱奕超,邹嘉程.浅析旅游大数据的多数据源采集方式[J].数字技术与应用,2024,42(3):161-164.
2高薇,曾健民.基于卷积神经网络算法的图像识别应用研究[J].西安文理学院学报（自然科学版）,2019,22(1):10-14. 被引量：8
3旷典,付尧明,房丽瑶.大数据挖掘分析在航空发动机状态监控与故障诊断中的应用[J].西安航空学院学报,2017,35(5):42-46. 被引量：16
4张荣磊,田爱奎,谭浩,郑睿.基于卷积神经网络的图像识别算法研究[J].山东理工大学学报（自然科学版）,2018,32(1):48-50. 被引量：5
5周力臻,许丽卿.多通道多载体数据流传输路径跟踪定位仿真[J].计算机仿真,2017,34(10):435-438. 被引量：2
6刘丽娟.改进的Apriori算法的研究及应用[J].计算机工程与设计,2017,38(12):3324-3328. 被引量：22
7杨朝辉,康磊.Hadoop平台中的MapReduce模型及优化[J].信息技术与信息化,2017(12):82-85. 被引量：2
8王诚,李奇源.基于贪心算法的一致性哈希负载均衡优化[J].南京邮电大学学报（自然科学版）,2018,38(3):89-97. 被引量：4
9肖红德.最少钱币数量的计算与钱币面额的确定[J].计算机工程与应用,2018,54(16):266-270.
10郭凯,龚才鑫,龚奕利,雷迎春.基于分布式文件系统的MPP数据库扫描调度研究[J].计算机工程与应用,2018,54(13):84-87. 被引量：3

1张凯,曹恒来.采用单次扫描的快速汇编程序[J].扬州师院学报（自然科学版）,1993,13(3):67-70.
2马汉良.锯齿波振荡环的多功能探讨[J].绍兴文理学院学报,1983,18(4):75-82.
3王尧,余祖俊,王中卫,李长春.基于FPGA的铁路异物检测算法的硬件实现[J].铁道学报,2016,38(3):84-91. 被引量：9
4刘博文,童立靖.基于多视角三维扫描数据的图像配准[J].软件,2016,37(10):29-32. 被引量：2
5陈辉,邓庆山,杨兵.挖掘数据流最近时间窗口内频繁模式[J].小型微型计算机系统,2009,30(12):2404-2408. 被引量：2
6马江,薛娓娓,李严.基于抽样的关联规则挖掘算法的研究[J].计算机光盘软件与应用,2010(12):33-34.
7吴响,臧昊,俞啸.基于抽样路径的K-匿名隐私保护算法[J].电子技术应用,2016,42(12):115-118. 被引量：4
8张兆功,李建中,张艳秋.海量数据上挖掘关联规则的并行算法[J].哈尔滨工业大学学报,2004,36(5):561-565. 被引量：5
9宛婉,周国祥.基于并行抽样的海量数据关联挖掘算法[J].合肥工业大学学报（自然科学版）,2013,36(8):933-937. 被引量：3
10刘芝怡.基于单次扫描无构造调节的频繁模式挖掘算法[J].科技通报,2014,30(6):119-121.

计算机工程与应用

2014年第20期

浏览历史

内容加载中请稍等...

Hadoop平台的海量数据并行随机抽样被引量：11

参考文献15

二级参考文献59

共引文献378

同被引文献108

引证文献11

二级引证文献67

相关作者

相关机构

相关主题

浏览历史

Hadoop平台的海量数据并行随机抽样 被引量：11

参考文献15

二级参考文献59

共引文献378

同被引文献108

引证文献11

二级引证文献67

相关作者

相关机构

相关主题

浏览历史

Hadoop平台的海量数据并行随机抽样被引量：11