基于聚类分析的不均衡数据标注技术研究被引量：3

Research on Unbalanced Data Labeling Technology Based on Clustering Analysis

下载PDF

导出

摘要分布不均衡的数据在通过传统聚类分析的方式进行标注时,聚类效果容易偏向于样本数多的类,从而造成标注出现误差的问题。针对此问题提出改进的含有均衡约束聚类算法的标注方法,对不均衡数据的聚类标注准确率实现了比较有效的提高,方法包含数据初始聚类、专家知识调整,数据均衡化处理,含均衡约束聚类等步骤。通过初始聚类对不均衡数据进行初始类标签分配,专家知识调整对部分数据错误标注进行标签调整修改,对数据进行均衡化处理得到均衡数据集,通过均衡约束聚类对均衡数据进行标签最终精确分配。经仿真验证表明,上述方法比较有效的提高了不均衡数据标注准确率。 When labeling on unbalanced datasets based on clustering analysis, it has a problem that clustering effect favors in ‘big’ cluster causing the errors. Focus on the problem, we proposed a labeling method based on a new clustering algorithm, the method includes initial clustering, expert knowledge modifying the error, balanced processing of the unbalanced datasets and re-clustering on balanced datasets. We got the initial clusters by the initial clustering. Then we modified the errors for a part of the data under the guidance of the expert knowledge. After the balanced processing of the unbalanced data, we proposed and used a new clustering algorithm with balancing constraint, and the data are re-labeled based on the clustering method, which finally improves the accuracy of the labeled results. Through simulation, it is proved that the proposed method can improve the accuracy of clustering and labeling.

作者赵俊杰黄四牛吴正午王帅 ZHAO Jun-jie;HUANG Si-niu;WU Zheng-wu;WANG Shuai(Science and Technology on Information System Engineering Laboratory,Beijing 100038,China)

机构地区北京控制与电子技术研究所

出处《计算机仿真》北大核心 2020年第2期476-480,共5页 Computer Simulation

基金国防科技创新特区项目支持。

关键词不均衡数据数据标注聚类分析均衡化处理仿真验证 Imbalanced data Data labeling Clustering analysis Balance processing Simulation verification

分类号 TP301.6 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献6

1杜红乐,张燕,张林.不均衡数据集下的入侵检测[J].山东大学学报（理学版）,2016,51(11):50-57. 被引量：5
2倪晓寅,冯志生,陈莹.2013年岷县6.6级地震前天水台磁通门秒数据异常提取分析[J].地震工程学报,2016,38(A02):203-207. 被引量：8
3段礼祥,郭晗,王金江.数据集不均衡下的设备故障程度识别方法研究[J].振动与冲击,2016,35(20):178-182. 被引量：14
4潘主强,张林,颜仕星,李国正,张磊.中医睡眠情绪类疾病不均衡数据的分类研究[J].济南大学学报（自然科学版）,2017,31(1):55-60. 被引量：3
5张燕,杜红乐,李楠.基于密度均衡的网络入侵检测[J].微型电脑应用,2016,32(8):36-39. 被引量：2
6杜红乐,张燕.基于聚类和协同标注的TSVM算法[J].河南科学,2017,35(1):22-27. 被引量：4

二级参考文献61

1林舒杨,李翠华,江弋,林琛,邹权.不平衡数据的降采样方法研究[J].计算机研究与发展,2011,48(S3):47-53. 被引量：31
2曾小苹,林云芳.地磁短周期变化异常对中国中强地震的响应[J].地震,1995,15(1):29-36. 被引量：19
3曾小苹,林云芳,赵跃辰.中国南极长城站的地下电性结构[J].地震学报,1995,17(2):247-252. 被引量：2
4龚绍京,杨桂群,田山.帕金森矢量、转换函数及地下电性结构[J].地震学刊,1989,9(4):21-25. 被引量：3
5廖东平,姜斌,魏玺章,黎湘,庄钊文.一种快速的渐进直推式支持向量机分类学习算法[J].系统工程与电子技术,2007,29(1):87-91. 被引量：12
6龚绍京,陈化然,张翠芬,马淑芹,杨桂君.地磁水平场转换函数在唐山地震前的异常反应[J].地震学报,1997,19(1):51-58. 被引量：17
7李鹏,王晓龙,刘远超,王宝勋.一种基于混合策略的失衡数据集分类方法[J].电子学报,2007,35(11):2161-2165. 被引量：16
8WANG B X, Japkowicz N. Boosting support vector ma- chines for imbalanced data sets[C]. Lecture Notes in Arti- ficial Intelligence, 2008, 4994:38-47.
9He H B, Garcia E A. Learning from imbalanced da- ta[J].IEEE Transactions on Knowledge and Data Engi- neering, 2009,21 (9): 1263-1284.
10Wilson D R. Tony R Martinez. Improved heterogeneous distance functions [J]. Journal Artificial Intelligence Re- search. 1997, 6(1): 1-34.

共引文献26

1戴苗,冯志生,刘坚,李德前,魏贵春,申学林.南北地震带地磁加卸载响应比应用研究[J].地质科技情报,2017,36(4):222-227. 被引量：23
2杜红乐,张燕.基于Tri-training直推式支持向量机算法[J].河南科学,2017,35(7):1032-1036.
3杜红乐,张燕.代价敏感的直推式支持向量机算法[J].河南科学,2017,35(8):1227-1231.
4潘主强,张林,张磊,李国正,颜仕星.中医临床不均衡数据疾病分类方法研究[J].智能系统学报,2017,12(6):848-856. 被引量：3
5李鸿宇,朱培育,王维,冯志生.2013年前郭5.8级震群的地磁多方法异常分析[J].地震研究,2018,41(1):111-117. 被引量：15
6温爱红,兰英,严南.大数据库不均衡数据碎片分类识别算法分析[J].机械设计与制造工程,2018,47(6):82-86. 被引量：1
7邓文雯,孙成明,秦培亮.云储存海量数据的采集方法研究[J].现代电子技术,2018,41(14):10-13.
8黄海松,魏建安,康佩栋.基于不平衡数据样本特性的新型过采样SVM分类算法[J].控制与决策,2018,33(9):1549-1558. 被引量：27
9徐新爱.非平衡光纤传感数据集类间数据重合的识别与分离算法[J].激光杂志,2018,39(11):120-125.
10杜红乐,张燕.基于聚类和协同标注的TSVM算法[J].河南科学,2017,35(1):22-27. 被引量：4

同被引文献28

1戴鸿昊,史建云.基于语义标注的数据库元数据质量评估方法[J].计算机产品与流通,2020(11):178-178. 被引量：4
2简富俊,曹敏,王磊,孙中伟,张建伟,王洪亮.基于SVM的AMI环境下用电异常检测研究[J].电测与仪表,2014,51(6):64-69. 被引量：28
3李春雪,谢林森,卢诚波.面向不平衡数据集的一种基于聚类的欠采样方法[J].数学的实践与认识,2019,49(1):203-209. 被引量：11
4潘明明,田世明,吴博,叶俊.基于智能电表数据的台区识别与窃电检测方法研究[J].智慧电力,2017,45(12):80-84. 被引量：48
5史玉良,荣以平,朱伟义.基于用电特征分析的窃电行为识别方法[J].计算机研究与发展,2018,55(8):1599-1608. 被引量：33
6于力超.抽样调查领域分层模型相关理论及估计方法研究[J].数学的实践与认识,2018,48(16):185-195. 被引量：3
7温雪岩,陈家男,景维鹏,徐克生.面向不平衡数据集分类模型的优化研究[J].计算机工程,2018,44(4):268-273. 被引量：13
8李冉,周丽娟,王华.面向类不平衡数据集的软件缺陷预测模型[J].计算机应用研究,2018,35(9):2806-2810. 被引量：11
9刘哲宁,朱聪慧,郑德权,赵铁军.面向特定标注数据稀缺领域的命名实体识别[J].指挥信息系统与技术,2019,10(5):14-18. 被引量：5
10朱子健,蔡树林,张墨轩,施佳佳,赵海峰.一种基于众包的数据标注系统[J].金陵科技学院学报,2019,35(4):20-24. 被引量：1

引证文献3

1杨思狄,王亚玲.面向不均衡数据集的过抽样数学模型构建[J].计算机仿真,2021,38(5):472-476. 被引量：1
2米启超,赵红梅,林丽萍.基于多通道卷积神经网络的非结构化数据标注[J].计算机仿真,2021,38(6):400-404. 被引量：1
3鞠默欣,周雨馨,唐伟宁,于欢,宋昊燃,倪鹏翔,戚意彬,谢蓓欣.基于数据不均衡的CART决策树用电异常检测方法[J].吉林电力,2024,52(1):53-56. 被引量：2

二级引证文献4

1闫丽飞,褚宇宁,赵维伟,何壮壮,刘晓强.大规模非结构化数据资源快速存储方法研究[J].集成电路与嵌入式系统,2024,24(4):77-81.
2向婕,韩敬涛,钟崇光,王逢浩,汪付星,高岩.基于混合级联模型的现货市场日前电价预测方法[J].吉林电力,2024,52(5):17-21.
3鞠默欣,刘俐君,方达,于欢,高山,曲丽,王贺.基于XGBOOST的零电量用户异常用电监测识别方法的研究[J].吉林电力,2024,52(5):22-26.
4陈彦榕,梁旭,陈康,黄思源,张宇星.基于间隔损失神经网络的异常翻栏检测方法[J].计算机科学与应用,2023,13(7):1454-1464. 被引量：1

1安欣赏.我国人工智能公共数据平台建设亟待破题[J].大社会,2019(11):60-62.
2赵存秀.不均衡数据分类器分类性能AUC与Accuracy的比较[J].唐山师范学院学报,2019,41(6):75-77. 被引量：2
3亢爱琴.通用技术尺寸标注漏标题型分析之我见[J].文理导航,2020,0(2):77-77.
4杨昭颖,冯磊,姜德才,朱月琴,余先川.基于邻域约束聚类的地球化学异常提取[J].地质通报,2019,38(12):2077-2084. 被引量：2
5贾颖霞,郎丛妍,冯松鹤.基于类别相关的领域自适应交通图像语义分割方法[J].计算机研究与发展,2020,57(4):876-887. 被引量：8
6梅御东,陈旭,孙毓忠,牛逸翔,肖立,王海荣,冯百明.一种基于日志信息和CNN-text的软件系统异常检测方法[J].计算机学报,2020,43(2):366-380. 被引量：36
7罗月童,卞景帅,张蒙,饶永明,闫峰.基于卷积去噪自编码器的芯片表面弱缺陷检测方法[J].计算机科学,2020,47(2):118-125. 被引量：11
8王强.让错误成为新的教育契机——浅谈钳工划线基准选择的重要性[J].中国多媒体与网络教学学报（电子版）,2019(3Z):218-219.
9崔海涛,李玲娟.基于Jaccard和LPA的社团划分算法[J].南京邮电大学学报（自然科学版）,2019,39(6):79-85. 被引量：4
10宝鹤鹏,陈超,王磊.面向停车场场景的多传感器融合匹配算法与融合数据的并行处理[J].现代计算机,2020,26(6):76-82. 被引量：1

计算机仿真

2020年第2期

浏览历史

内容加载中请稍等...

基于聚类分析的不均衡数据标注技术研究被引量：3

参考文献6

二级参考文献61

共引文献26

同被引文献28

引证文献3

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

基于聚类分析的不均衡数据标注技术研究 被引量：3

参考文献6

二级参考文献61

共引文献26

同被引文献28

引证文献3

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

基于聚类分析的不均衡数据标注技术研究被引量：3