云计算环境下不平衡大数据动态分类仿真被引量：8

Simulation of Dynamic Classification for Unbalanced Big Data in Cloud Computing Environment

下载PDF

导出

摘要针对传统大数据分类方法未对数据的主要特征进行优化分类,导致准确率低、效率差等问题,提出基于随机森林算法的不平衡大数据动态分类。设计分类系统基本框架以及分类处理器的硬件结构,针对大数据时域特征中的瞬时能量,计算帧数及过零率。依据得到的计算结果使用线性预测和梅尔频率倒谱系数两种方式,结合帧数大小构建不平衡大数据的主要特征函数。利用随机森林算法的表达函数,建立算法的基本框架,分别对其中的子模型优化分类。再获取决策树模型,对不平衡数据特征分裂处理,实现数据动态分类,并使用少数类和多数类评价指标,对结果进行理论检验。通过仿真表明,上述方法具有更高的数据分类准确率,更好的分类效果,可为今后的大数据动态分类工作提供良好的参考。 Traditional big data classification method ignored to optimize the classification of main features of data,resulting in low accuracy and poor efficiency.Therefore,a dynamic classification method for unbalanced big data based on random forest algorithm was proposed.At first,the basic framework of classification system and the hardware structure of classification processor were designed.For the instantaneous energy in time domain feature of big data,the frame number and zero-crossing rate were calculated.According to the calculation results,linear prediction and Mel frequency cepstrum coefficients were combined with the frame number to construct the main feature function of unbalanced big data.Moreover,the expression function of the random forest algorithm was used to build the basic framework of algorithm,and the sub-models were optimized and classified respectively.Then,the decision tree model was obtained,and the imbalanced data features were classified.Finally,dynamic classification of data was achieved.The minority and majority evaluation indicators were used to test the result in theory.Simulation results show that the proposed method has higher accuracy of data classification and better classification effect.

作者包涵范晓安 BAO Han;FAN Xiao-an(Jilin University,Changchun Jilin 130012,China)

机构地区吉林大学

出处《计算机仿真》北大核心 2020年第8期311-314,461,共5页 Computer Simulation

关键词云计算不平衡大数据动态分类帧数随机森林算法 Cloud computing Unbalanced big data Dynamic classification Frame number Random forest algorithm

分类号 G434 [文化科学—教育技术学]

引文网络
相关文献

参考文献12

1张清忠.面向云计算的时间序列数据挖掘系统架构设计[J].西安工程大学学报,2016,30(5):645-650. 被引量：9
2肖文,胡娟,周晓峰.基于MapReduce计算模型的并行关联规则挖掘算法研究综述[J].计算机应用研究,2018,35(1):13-23. 被引量：47
3陶晓玲,亢蕊楠,刘丽燕.基于选择性集成的并行多分类器融合方法[J].计算机工程与科学,2018,40(5):787-792. 被引量：8
4吴新忠,夏令祥,张旭,周成.基于谱熵梅尔积的语音端点检测方法[J].北京邮电大学学报,2019,42(2):83-89. 被引量：15
5梁剑波,梁丽香.大数据环境下特征数据优化提取仿真[J].计算机仿真,2017,34(12):345-348. 被引量：4
6张忠林,吴挡平.基于概率阈值Bagging算法的不平衡数据分类方法[J].计算机工程与科学,2019,41(6):1086-1094. 被引量：15
7易明雨,肖赤心,潘晖,舒文杰.用于大数据分类的快速隐层优化分布式极限学习机[J].计算机工程与应用,2019,55(16):165-169. 被引量：12
8鲁亮,于炯,卞琛,刘月超,廖彬,李慧娟.大数据流式计算框架Storm的任务迁移策略[J].计算机研究与发展,2018,55(1):71-92. 被引量：25
9袁健,王迪,申泽宇.大数据环境中交互式查询差分隐私保护模型[J].计算机应用研究,2019,36(6):1782-1787. 被引量：19
10贾贺,艾中良,贾高峰,刘忠麟,陈伯雄.基于Solr的司法大数据检索模型研究与实现[J].计算机工程与应用,2017,53(20):249-253. 被引量：18

二级参考文献89

1蔡淑兰,张忠平,宋丽,佟冰.一种用来保护私有信息的K-匿名模型[J].燕山大学学报,2005,29(4):352-355. 被引量：2
2朱蔚恒,印鉴,谢益煌.基于数据流的任意形状聚类算法[J].软件学报,2006,17(3):379-387. 被引量：51
3景杰峰,李姗姗.电网实时数据挖掘系统的研究与开发[J].河北电力技术,2007,26(S1):33-35. 被引量：2
4王禹,赵跃龙.对等网络中全文检索系统的设计与实现[J].计算机工程与应用,2010,46(10):70-72. 被引量：2
5杨宁,唐常杰,王悦,陈瑜,郑皎凌.一种基于时态密度的倾斜分布数据流聚类算法[J].软件学报,2010,21(5):1031-1041. 被引量：17
6谢桂兰,罗省贤.基于Hadoop MapReduce模型的应用研究[J].微型机与应用,2010,29(8):4-7. 被引量：69
7张晓雷,吴及,吕萍.基于支持向量机与多观测复合特征矢量的语音端点检测[J].清华大学学报（自然科学版）,2011,51(9):1209-1214. 被引量：3
8黄立勤,柳燕煌.基于MapReduce并行的Apriori算法改进研究[J].福州大学学报（自然科学版）,2011,39(5):680-685. 被引量：19
9傅巍玮,李仁发,刘钰峰,黄松立.基于Solr的分布式实时搜索模型研究与实现[J].电信科学,2011,27(11):51-56. 被引量：12
10DENG ZhiHong,WANG ZhongHui,JIANG JiaJian.A new algorithm for fast mining frequent itemsets using N-lists[J].Science China(Information Sciences),2012,55(9):2008-2030. 被引量：25

共引文献169

1陈珂.“互联网+”背景下业财融合路径研究[J].投资与创业,2021(5):52-54. 被引量：2
2车敏诗,聂春燕,范如俊,杨承金,阮新磊.一种基于混沌特征及优化CHAID决策树的情绪识别方法[J].计算机应用研究,2020,37(S02):105-107. 被引量：3
3卢洵波,李昕.特征融合的VAD方法在语音识别系统中的应用[J].电子测量技术,2020(7):129-136. 被引量：2
4邓鑫,王岩松,杨超,郭辉.基于融合特征的汽车鸣笛声识别方法[J].智能计算机与应用,2021,11(12):197-200. 被引量：1
5<<药品非临床研究质量管理规范>>(试行)[J].中国医药情报,2000,6(1):21-27.
6赵大进.提高小学思品课课堂教学效率策略初探[J].中小学教材教学（小学版）,2000(9):40-42.
7于炯,蒲勇霖,鲁亮,刘粟.分布式处理平台节能计算研究综述[J].新疆大学学报（自然科学版）,2018,35(4):389-401. 被引量：1
8侯令忠.基于差分隐私的体育个人信息安全保护及法律遵从研究[J].北京体育大学学报,2018,41(11):49-54. 被引量：9
9张航,张欣,张平康,李琪.基于MapReduce的并行加权FIUT算法[J].微电子学与计算机,2018,35(7):41-44. 被引量：1
10康鲲鹏.基于大数据的数据清洗研究[J].江西科学,2018,36(4):654-657. 被引量：2

同被引文献99

1程磊,吴晓富,张索非.数据集类别不平衡性对迁移学习的影响分析[J].信号处理,2020,36(1):110-117. 被引量：3
2崔艳,王允艳.随机环境下的门限整值自回归过程及其参数估计[J].数学的实践与认识,2020,0(1):238-248. 被引量：1
3庄进发,罗键,彭彦卿,黄春庆,吴长庆.基于改进随机森林的故障诊断方法研究[J].计算机集成制造系统,2009,15(4):777-785. 被引量：32
4杨长春,沈晓玲.基于云计算的SLIQ并行算法研究[J].计算机工程与科学,2012,34(3):62-66. 被引量：6
5李武智,张斌.基于服务上下文的Web服务发现机制[J].计算机工程与设计,2012,33(7):2580-2583. 被引量：3
6曹鹏,栗伟,赵大哲.基于决策准则优化的不均衡数据分类[J].小型微型计算机系统,2014,35(5):961-966. 被引量：2
7孔宪光,章雄,马洪波,常建涛,牛萌.面向复杂工业大数据的实时特征提取方法[J].西安电子科技大学学报,2016,43(5):70-74. 被引量：28
8王子勇,王焘,张文博,陈宁江,左春.一种基于执行轨迹监测的微服务故障诊断方法[J].软件学报,2017,28(6):1435-1454. 被引量：28
9王梓杰,周新志,宁芊.基于PCA和随机森林的故障趋势预测方法研究[J].计算机测量与控制,2018,26(2):21-23. 被引量：21
10张钰,陈珺,王晓峰,刘飞,周文晶,王志国.随机森林在滚动轴承故障诊断中的应用[J].计算机工程与应用,2018,54(6):100-104. 被引量：41

引证文献8

1张健.云计算背景下大数据自动分类处理系统设计[J].电子测试,2021,32(16):72-73. 被引量：2
2林君萍.面向不平衡工业大数据集的SVM-tree分类算法研究[J].长春师范大学学报,2022,41(2):40-46.
3邢超,姜瑛.基于随机森林的云环境下服务故障识别方法[J].现代电子技术,2022,45(16):87-92.
4侯方迪,高卫东,张勇,翟哲,杨凡,吴亮.电网总调调度信息披露不平衡性数据处理模型[J].电子设计工程,2022,30(17):104-108.
5张婷.基于无限深度神经网络的非平衡大数据集群匿名化调度算法[J].计算技术与自动化,2022,41(3):71-76. 被引量：4
6周雅静.云计算框架下SPRINT大数据分类算法的优化及应用[J].电脑知识与技术,2023,19(20):93-97. 被引量：1
7张剑,高云,何栋.基于彩色-深度传感器的电容层析成像图像重建方法[J].传感技术学报,2023,36(11):1788-1793.
8王俊海.基于改进GBDT算法的网络大数据入侵检测与控制研究[J].信息记录材料,2024,25(4):242-248.

二级引证文献7

1杨悦.云计算背景下大数据自动分类处理系统设计[J].电子技术与软件工程,2021(22):177-179. 被引量：1
2同军红.基于B-CNN模型的非平衡大数据智能分类方法研究[J].信息与电脑,2023,35(15):162-164. 被引量：2
3沙伟燕,胡伟,何宁辉,张涛,谢海滨.大规模虚拟储能平抑新能源功率预测误差优化调度方法[J].电力科学与技术学报,2023,38(6):167-174. 被引量：2
4郭二芳.大数据分类系统优化算法中微分分类数学模型的应用研究[J].信息记录材料,2024,25(9):92-94.
5董慧.基于蚁群优化的变电站通信网络负荷信息调度技术[J].通信电源技术,2024,41(20):86-88.
6余华东,张步忠,濮光宁.无线网络突发流量数据分区调度方法[J].海南热带海洋学院学报,2024,31(5):80-87.
7宋正龙.基于云计算的大数据处理系统设计与实现[J].信息系统工程,2024(11):4-7.

1宋海岩,佟宁宁,秦进平.基于空时频联合分析的方位估计方法[J].黑龙江工程学院学报,2018,32(3):42-46.
2董雪欣,李京坤,李卓玉,王利江,张中华.生活垃圾分类处理器[J].少年发明与创造（小学版）,2017,0(20):8-8.
3徐利,徐久强,冯家乐.结合CEEMDAN与改进区间阈值的ECG降噪研究[J].小型微型计算机系统,2020,41(8):1576-1579. 被引量：11
4杨俊峰.抢人大战背景下的人口流动治理现代化:国外制度与启示[J].太原城市职业技术学院学报,2020(8):29-32.
5张彤,张飞云.基于计算机数据分析的足球比赛传球分类研究[J].自动化技术与应用,2020,39(8):146-149.
6何冰,孟夏卿,顾俊杰,俞杰,李伟.微振动传感与声振特征识别的输电线路环境异变预警研究[J].电力信息与通信技术,2020,18(9):57-63. 被引量：1
7罗杰,陈维,潘运,赵守盈.少数民族青少年韧性素质量表的概化分析[J].贵州师范大学学报（自然科学版）,2020,38(5):93-98. 被引量：4
8孙汉文,李喆,盛戈皞,江秀臣.基于机器学习与卷积神经网络的放电声音识别研究[J].高压电器,2020,56(9):107-113. 被引量：9
9范庆祝,孙祁祥.中国寿险市场存在逆向选择吗?——来自CHARLS数据的经验证据[J].金融研究,2020(8):112-129. 被引量：10
10方志耕,邵瑞瑞,王召,刘思峰,游伟青,高素.高轨卫星通信星座PS-GERT效能评估模型[J].系统工程与电子技术,2020,42(10):2356-2365. 被引量：3

计算机仿真

2020年第8期

浏览历史

内容加载中请稍等...

云计算环境下不平衡大数据动态分类仿真被引量：8

参考文献12

二级参考文献89

共引文献169

同被引文献99

引证文献8

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

云计算环境下不平衡大数据动态分类仿真 被引量：8

参考文献12

二级参考文献89

共引文献169

同被引文献99

引证文献8

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

云计算环境下不平衡大数据动态分类仿真被引量：8