一种基于领域适配的跨项目软件缺陷预测方法被引量：15

Domain Adaptation Approach for Cross-project Software Defect Prediction

下载PDF

导出

摘要软件缺陷预测旨在帮助软件开发人员在早期发现和定位软件部件可能存在的潜在缺陷,以达到优化测试资源分配和提高软件产品质量的目的.跨项目缺陷预测在已有项目的缺陷数据集上训练模型,去预测新的项目中的缺陷,但其效果往往不理想,其主要原因在于,采样自不同项目的样本数据集,其概率分布特性存在较大差异,由此对预测精度造成较大影响.针对此问题,提出一种监督型领域适配(domainadaptation)的跨项目软件缺陷预测方法.将实例加权的领域适配与机器学习的预测模型训练过程相结合,通过构造目标项目样本相关的权重,将其施加于充足的源项目样本中,以实例权重去影响预测模型的参数学习过程,将来自目标项目中缺陷数据集的分布特性适配到训练数据集中,从而实现缺陷数据样本的复用和跨项目软件缺陷预测.在10个大型开源软件项目上对该方法进行实证,从数据集、数据预处理、实验结果多个角度针对不同的实验设定策略进行分析;从数据、预测模型以及模型适配层面分析预测模型的过拟合问题.实验结果表明,该方法性能优于同类方法,显著优于基准性能,且能够接近和达到项目内缺陷预测的性能. Software defect prediction aims at the very early step of software quality control, helps software engineers focus their attention on defect-prone parts during verification process. Cross-project defect predictions are proposed in which prediction models are trained by using sufficient training data from already existed software projects and predict defect in some other projects, however, their performances are always poor. The main reason is that, the divergence of the data distribution among different software projects causes a dramatic impact on the prediction accuracy. This study proposed an approach of cross-project defect prediction by applying a supervised domain adaptation based on instance weighting. The sufficient instances drawn from some source project are weighted by assigning target-dependent weights to the loss function of the prediction model when minimizing the expected loss over the distribution of source data, so that the distribution properties of the data from target project can be matched to the source project. Experiments including dataset selection, data preprocessing and results are described over different experiment strategies on ten open-source software projects. Over fitting problems are also studied through different levels including dataset, prediction model and domain adaptation process. The results show that the proposed approach is close to the performance of within-project defect prediction, better than similar approach and significantly better that of the baseline.

作者陈曙叶俊民刘童 CHEN Shu;YE Jun-Min;LIU Tong(School of Computer,Central China Normal University,Wuhan 430079,China)

机构地区华中师范大学计算机学院

出处《软件学报》 EI CSCD 北大核心 2020年第2期266-281,共16页 Journal of Software

基金国家科技支撑计划(2015BAK33B00).

关键词软件缺陷预测软件缺陷度量元机器学习迁移学习领域适配 software defect prediction software defect metrics machine learning transfer learning domain adaptation

分类号 TP311.5 [自动化与计算机技术—计算机软件与理论] TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献4

1陈翔,顾庆,刘望舒,刘树龙,倪超.静态软件缺陷预测方法研究[J].软件学报,2016,27(1):1-25. 被引量：123
2何吉元,孟昭鹏,陈翔,王赞,樊向宇.一种半监督集成跨项目软件缺陷预测方法[J].软件学报,2017,28(6):1455-1473. 被引量：17
3陈翔,王莉萍,顾庆,王赞,倪超,刘望舒,王秋萍.跨项目软件缺陷预测方法研究综述[J].计算机学报,2018,41(1):254-274. 被引量：44
4庄福振,罗平,何清,史忠植.迁移学习研究进展[J].软件学报,2015,26(1):26-39. 被引量：468

二级参考文献223

1Ben-David S,Blitzer J,Crammer K,Pereira F.Analysis of representations for domain adaptation.In:Platt JC,Koller D,Singer Y,Roweis ST,eds.Proc.of the Advances in Neural Information Processing Systems 19.Cambridge:MIT Press,2007.137-144.
2Blitzer J,McDonald R,Pereira F.Domain adaptation with structural correspondence learning.In:Jurafsky D,Gaussier E,eds.Proc.of the Int’l Conf.on Empirical Methods in Natural Language Processing.Stroudsburg PA:ACL,2006.120-128.
3Dai WY,Xue GR,Yang Q,Yu Y.Co-Clustering based classification for out-of-domain documents.In:Proc.of the 13th ACM Int’l Conf.on Knowledge Discovery and Data Mining.New York:ACM Press,2007.210-219.[doi:10.1145/1281192.1281218].
4Dai WY,Xue GR,Yang Q,Yu Y.Transferring naive Bayes classifiers for text classification.In:Proc.of the 22nd Conf.on Artificial Intelligence.AAAI Press,2007.540-545.
5Liao XJ,Xue Y,Carin L.Logistic regression with an auxiliary data source.In:Proc.of the 22nd lnt*I Conf.on Machine Learning.San Francisco:Morgan Kaufmann Publishers,2005.505-512.[doi:10.1145/1102351.1102415].
6Xing DK,Dai WY,Xue GR,Yu Y.Bridged refinement for transfer learning.In:Proc.of the Ilth European Conf.on Practice of Knowledge Discovery in Databases.Berlin:Springer-Verlag,2007.324-335.[doi:10.1007/978-3-540-74976-9_31].
7Mahmud MMH.On universal transfer learning.In:Proc.of the 18th Int’l Conf.on Algorithmic Learning Theory.Sendai,2007.135-149.[doi:10,1007/978-3-540-75225-7_14].
8Samarth S,Sylvian R.Cross domain knowledge transfer using structured representations.In:Proc.of the 21st Conf.on Artificial Intelligence.AAAI Press,2006.506-511.
9Bel N,Koster CHA,Villegas M.Cross-Lingual text categorization.In:Proc.of the European Conf.on Digital Libraries.Berlin:Springer-Verlag,2003.126-139.[doi:10.1007/978-3-540-45175-4_13].
10Zhai CX,Velivelli A,Yu B.A cross-collection mixture model for comparative text mining.In:Proc.of the 10th ACM SIGKDD Int’l Conf.on Knowledge Discovery and Data Mining.New York:ACM,2004.743-748.[doi:10.1145/1014052.1014150].

共引文献610

1康文杰,田苗,林岚,孙珅,吴水才.深度卷积生成对抗网络对神经影像通用数据特征的学习[J].智慧健康,2020(31):1-4. 被引量：2
2张政,严哲,顾汉明.基于残差网络与迁移学习的断层自动识别[J].石油地球物理勘探,2020(5):950-956. 被引量：23
3郭肇强,周慧聪,刘释然,李言辉,陈林,周毓明,徐宝文.基于信息检索的缺陷定位:问题、进展与挑战[J].软件学报,2020(9):2826-2854. 被引量：14
4吴锐帆,代海洋,杨坦,江颖,蔡志杰.直肠癌淋巴结转移的智能诊断研究[J].数学建模及其应用,2019,8(4):30-37. 被引量：2
5刘世晶,刘阳春,钱程,郑浩君,周捷,张成林.基于CycleGAN和注意力增强迁移学习的小样本鱼类识别[J].农业机械学报,2023,54(S01):296-302. 被引量：4
6张璐,黄琳,李备备,陈鑫,段青玲.基于多尺度融合与无锚点YOLO v3的鱼群计数方法[J].农业机械学报,2021,52(S01):237-244. 被引量：16
7张红洋,田瑞盟.基于SOLO分类理论的科学思维学业质量评价[J].湖南中学物理,2021(2):1-4. 被引量：1
8贾燕华,李英梅.基于自适应聚类过采样的软件缺陷预测研究[J].哈尔滨师范大学自然科学学报,2023,39(2):45-50. 被引量：1
9林峰,郭鹏,刘旭斌.基于叶片表面污垢预处理与CNN的风电机组叶片表面损伤识别[J].动力工程学报,2020(12):975-981. 被引量：5
10颜宏文,陈金鑫.基于改进YOLOv3的绝缘子串定位与状态识别方法[J].高电压技术,2020,46(2):423-432. 被引量：77

同被引文献96

1李娜,王志杰,丁克勤.粮食储备库分布式粮堆湿度监控系统软件开发[J].中国粮油学报,2019,34(S02):1-6. 被引量：3
2王丽娟,刘全周,晏江华,刘铁山,王通.基于ASPICE及ISO26262的软件测试技术研究[J].中国测试,2020,46(S01):139-143. 被引量：5
3包晓安,谢晓鸣,张娜,曹建文,桂宁.基于缺陷关联度的Markov模型软件优化测试策略[J].软件学报,2015,26(1):14-25. 被引量：22
4庄福振,罗平,何清,史忠植.迁移学习研究进展[J].软件学报,2015,26(1):26-39. 被引量：468
5蔡军,邹鹏,杨尚飞,何骏.软件漏洞分析中的脆弱点定位方法[J].国防科技大学学报,2015,37(5):141-148. 被引量：12
6陈翔,顾庆,刘望舒,刘树龙,倪超.静态软件缺陷预测方法研究[J].软件学报,2016,27(1):1-25. 被引量：123
7何凯平,徐达,熊伟,李华.激光靶海量通道信号模块化并行采集系统设计[J].激光技术,2016,40(6):810-813. 被引量：16
8傅艺绮,董威,尹良泽,杜雨晴.基于组合机器学习算法的软件缺陷预测模型[J].计算机研究与发展,2017,54(3):633-641. 被引量：24
9邓伟康,刘锋,朱二周.基于新型PSO算法优化BP神经网络的软件缺陷预测方法研究[J].微电子学与计算机,2017,34(4):39-43. 被引量：5
10何吉元,孟昭鹏,陈翔,王赞,樊向宇.一种半监督集成跨项目软件缺陷预测方法[J].软件学报,2017,28(6):1455-1473. 被引量：17

引证文献15

1杨慕升,石志华.深入剖析C++Builder中的文件拷贝方法[J].电脑编程技巧与维护,2000(5):32-33.
2吴鹃.面向对象软件的数据异常监测方法研究[J].自动化与仪器仪表,2021(3):61-64.
3陈翠娟.激光测距机缺陷智能估计方法[J].激光杂志,2021,42(4):187-191.
4张献,贲可荣,曾杰.基于代码自然性的切片粒度缺陷预测方法[J].软件学报,2021,32(7):2219-2241. 被引量：8
5陈晓璠,邓砚谷.基于动态命令树算法的软件老化趋势预测方法[J].计算机仿真,2021,38(11):295-299.
6尤姗姗,刘雪娇.基于非线性集成深度学习的软件模块风险预测[J].计算机仿真,2021,38(11):305-308.
7邢颖,钱晓萌,管宇,章世豪,赵梦赐,林婉婷.一种采用对抗学习的跨项目缺陷预测方法[J].软件学报,2022,33(6):2097-2112. 被引量：5
8侯正波.基于BP神经网络的计算机软件缺陷预测方法[J].信息与电脑,2022,34(13):86-88.
9刘路瑶,韩培胜.基于堆叠降噪自编码器的跨项目软件缺陷数量预测方法[J].计算机与现代化,2023(4):32-38.
10吕晓华,王诺,崔建弘,范家熠.面向系统可靠性保障的软件配置错误诊断仿真[J].计算机仿真,2023,40(6):509-512.

二级引证文献16

1曹良林,贲可荣,张献.基于代理辅助多目标萤火虫算法的软件缺陷预测方法研究[J].计算机工程与科学,2022,44(2):257-265. 被引量：2
2杨慧文,崔展齐,陈翔,贾明华,郑丽伟,刘建宾.基于软件度量的Solidity智能合约缺陷预测方法[J].软件学报,2022,33(5):1587-1611. 被引量：7
3邢颖,钱晓萌,管宇,章世豪,赵梦赐,林婉婷.一种采用对抗学习的跨项目缺陷预测方法[J].软件学报,2022,33(6):2097-2112. 被引量：5
4陈浙哲,鄢萌,夏鑫,刘忠鑫,徐洲,雷晏.代码自然性及其应用研究进展[J].软件学报,2022,33(8):3015-3034. 被引量：1
5王勇,张亚平.基于深度表示学习自动检测源代码漏洞的方法研究[J].现代电子技术,2022,45(17):85-89.
6马骏驰,迪骁鑫,段宗涛,唐蕾.程序表示学习综述[J].浙江大学学报（工学版）,2023,57(1):155-169. 被引量：2
7李汇来,杨斌,于秀丽,唐晓梅.软件缺陷预测模型可解释性对比[J].计算机科学,2023,50(5):21-30. 被引量：4
8袁子龙,吴秋新,刘韧,秦宇.一种基于改进差分进化算法的源码漏洞检测模型的冷启动方法[J].计算机应用研究,2023,40(7):2170-2178.
9魏比贤,刘晓燕.基于集成算法的软件缺陷预测方法研究[J].化工自动化及仪表,2023,50(4):549-556.
10徐金鹏,郭新峰,王瑞波,李济洪.基于GAN数据增强的软件缺陷预测聚合模型[J].计算机科学,2023,50(12):24-31. 被引量：2

1盛鸿彪.语文课堂教学评价中设定评价目标的策略——以北师大版九年级语文下册教材为例[J].课程教学研究,2020,0(3):23-28. 被引量：1
2高莲莲,陶静,刘清华.基于饮食目标的健康教育在初发2型糖尿病患者中的应用[J].护理学报,2019,26(23):75-78. 被引量：17
3李勇,刘战东,张海军.跨项目软件缺陷预测方法研究综述[J].计算机技术与发展,2020,30(3):98-103.
4刘晔晖,赵海燕,曹健,陈庆奎.开源社区问题解决过程人员参与积极性的影响因素分析[J].小型微型计算机系统,2020,41(3):454-463.
5张伟华,王文青,张磊,代鑫,郐士超.应急救援气体侦检仪报警阈值设定研究[J].消防科学与技术,2019,38(9):1262-1264. 被引量：1
6马由,汤艳,解斐.基于两种统计模型的软件缺陷预测[J].计算机工程与设计,2020,41(4):1046-1051. 被引量：2
7胡多海.基于LDRA Testbed的单元测试用例设计及案例分析[J].电子测试,2020,31(6):9-12. 被引量：1
8刘淑清,李宁.人性化管理理念在临床护理管理中的应用价值[J].光明中医,2020,35(4):623-625. 被引量：5
9李有观(编译).美国的教育革命[J].世界文化,2020,0(3):62-64.
10刘平,王鑫,孙千志,黄守道,涂春鸣,阳维龙.永磁同步电机定子绕组温度估计的信号注入策略优化[J].电机与控制学报,2019,23(11):18-26. 被引量：10

软件学报

2020年第2期

浏览历史

内容加载中请稍等...

一种基于领域适配的跨项目软件缺陷预测方法被引量：15

参考文献4

二级参考文献223

共引文献610

同被引文献96

引证文献15

二级引证文献16

相关作者

相关机构

相关主题

浏览历史

一种基于领域适配的跨项目软件缺陷预测方法 被引量：15

参考文献4

二级参考文献223

共引文献610

同被引文献96

引证文献15

二级引证文献16

相关作者

相关机构

相关主题

浏览历史

一种基于领域适配的跨项目软件缺陷预测方法被引量：15