三种用于垃圾网页检测的随机欠采样集成分类器被引量：8

Three random under-sampling based ensemble classifiers for Web spam detection

下载PDF

导出

摘要针对垃圾网页检测过程中轻微的不平衡分类问题,提出三种随机欠采样集成分类器算法,分别为一次不放回随机欠采样(RUS-once)、多次不放回随机欠采样(RUS-multiple)和有放回随机欠采样(RUS-replacement)算法。首先使用其中一种随机欠采样技术将训练样本集转换成平衡样本集,然后对每个平衡样本集使用分类回归树(CART)分类器算法进行分类,最后采用简单投票法构建集成分类器对测试样本进行分类。实验表明,三种随机欠采样集成分类器均取得了良好的分类效果,其中RUS-multiple和RUS-replacement比RUS-once的分类效果更好。与CART及其Bagging和Adaboost集成分类器相比,在WEBSPAM UK-2006数据集上,RUS-multiple和RUS-replacement方法的AUC指标值提高了10%左右,在WEBSPAM UK-2007数据集上,提高了25%左右;与其他最优研究结果相比,RUS-multiple和RUS-replacement方法在AUC指标上能达到最优分类结果。 In order to solve the problem of slighty imbalanced classification in Web spam detection, three ensemble classifiers based on random under-sampling techniques were proposed, including Random Under-Sampling once without replacement （RUS-once）, Random Under-Sampling multiple times without replacement （RUS-muhiple） and Random Under- Sampling with replacement （ RUS-replacement）. At first, the unbalanced training dataset was converted into several balanced datasets by using one of the under-sampling techniques. Secondly, the Classification And Regression Tree （CART） classifiers were trained based on the balanced datasets. Finally, an ensemble classifier was constructed with all of the CART classifiers based on simple voting rule and used to classify the test samples. The experimental results show that the three kinds of random under-sampling based ensemble classifiers achieve good classification results, the performance of RUS-multiple and RUS- replacement are better than RUS-once. Compared with CART, Bagging with CART and Adaboost with CART, the AUC values of RUS-muhiple and RUS-replacement increase about 10% on WEBSPAM UK-2006 and about 25% on WEBSPAM UK-2007; compared with several state-of-the-art baseline classification models, RUS-multiple and RUS-replacement achieve the optimal results in AUC value.

作者陈木生卢晓勇 CHEN Musheng LU Xiaoyong(School of Information Engineering, Nanchang University, Nanchang Jiangxi 330031, China School of Software, Nanchang University, Nanchang Jiangxi 330047, China)

机构地区南昌大学信息工程学院南昌大学软件学院

出处《计算机应用》 CSCD 北大核心 2017年第2期535-539,558,共6页 journal of Computer Applications

基金江西省科技支撑计划项目(20131102040039)~~

关键词垃圾网页检测不平衡分类集成学习欠采样分类回归树 Web spam detection imbalanced classification ensemble learning under-sampling Classification And Regression Tree （CART）

分类号 TP391.1 [自动化与计算机技术—计算机应用技术] TP393.098 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1卢晓勇,陈木生.基于随机森林和欠采样集成的垃圾网页检测[J].计算机应用,2016,36(3):731-734. 被引量：17
2卢晓勇,陈木生,吴政隆,张百栈.基于免疫克隆特征选择和欠采样集成的垃圾网页检测[J].计算机应用,2016,36(7):1899-1903. 被引量：3

二级参考文献34

1林舒杨,李翠华,江弋,林琛,邹权.不平衡数据的降采样方法研究[J].计算机研究与发展,2011,48(S3):47-53. 被引量：31
2GYONGYI Z, GARCIA-MOLINA H. Web spam taxonomy [ C]// Proceedings of the 14st International Workshop on Adversarial Information Retrieval on the Web. Chiba, Japan: AIRWeb, 2005:39-47.
3EIRON N, MCCURLEY K S. Analysis of anchor text for Web search [ C]// Proceedings of the 26th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM, 2003:459-460.
4SPIRIN N, HAN J. Survey on Web spam detection: principles and algorithms [ J]. ACM SIGKDD Explorations Newsletter, 2012, 13 (2): 50-64.
5CHANDRA A, SUAIB M. A survey on Web spam and spam 2.0 [ J]. International Journal of Advanced Research in Computer Science, 2014,4(15) : 634 -644.
6PRIETO V M, ALVAREZ M, CACHEDA F. SAAD, a content based Web spam analyzer and detector [ J]. Journal of Systems and Software, 2013, 86(11) : 2906 - 2918.
7SCARSELLI F, TSOI A C, HAGENBUCHNER M, et al. Solving graph data issues using a layered architecture approach with applications to Web spam detection [ J]. Neural Networks, 2013, 48(1) : 78 - 90.
8GAO S, ZHANG H, ZHENG X, et al. Improving SVM classifiers with link structure for Web spam detection [ J]. Journal of Computational Information Systems, 2014, 10(6) :2435 -2443.
9BREIMAN L. Random forests-- random features [J]. Machine Learning, 1999, 45 ( 1 ) : 5 - 32.
10BREIMAN L, FRIEDMAN J, OLSHEN R, et al. Classification and regression trees [M]. Boca Raton, FL: CRC Press, 1984:18 -Sg.

共引文献18

1卢晓勇,陈木生,吴政隆,张百栈.基于免疫克隆特征选择和欠采样集成的垃圾网页检测[J].计算机应用,2016,36(7):1899-1903. 被引量：3
2张莉,孙丽娜,郭峰.在线社会网络中近似网页识别方法研究[J].微电子学与计算机,2017,34(2):141-144.
3唐燕,王苹.随机森林算法在中医药院校贫困生认定预测中的应用研究[J].中国医药导报,2017,14(14):164-168. 被引量：6
4王卫红,朱雨辰.基于N-Gram与加权分类器集成的恶意代码检测[J].浙江工业大学学报,2017,45(6):604-609. 被引量：9
5曲兴卫,王自珍.多源数据集成的视觉传达设计仿真研究[J].现代电子技术,2018,41(13):172-176. 被引量：3
6程新党,张新刚,赵学武.基于免疫克隆算法的网店属地判定[J].新乡学院学报,2018,35(3):17-25.
7刘勇,兴艳云.基于改进随机森林算法的文本分类研究与应用[J].计算机系统应用,2019,28(5):220-225. 被引量：19
8张扬帆,张海鹏,孙俊.基于Lévy分布的不平衡数据过采样方法[J].计算机工程与应用,2019,55(16):150-156. 被引量：1
9李欢,熊梦莹,聂斌,杜建强,周丽,黄强.融合因子分析的随机森林研究[J].计算机工程与应用,2019,55(23):125-130. 被引量：8
10邓晶,李路.参数优化随机森林在股票预测中的应用[J].软件,2020,41(1):178-182. 被引量：7

同被引文献54

1董乐红,耿国华,高原.Boosting算法综述[J].计算机应用与软件,2006,23(8):27-29. 被引量：26
2冀汶莉.基于RIPPER短序列匹配算法在入侵检测中的优化研究[J].兰州工业高等专科学校学报,2007,14(1):1-4. 被引量：2
3袁晓航,杜小勇.iRIPPER——一种改进的基于规则学习的文本分类算法[J].山东大学学报（理学版）,2007,42(11):66-68. 被引量：2
4刘大千,修春亮.国内外犯罪地理学研究进展评析[J].人文地理,2012,27(2):38-44. 被引量：32
5江颉,王卓芳,GONG Rong-sheng,陈铁明.不平衡数据分类方法及其在入侵检测中的应用研究[J].计算机科学,2013,40(4):131-135. 被引量：8
6蒋芸,陈娜,明利特,周泽寻,谢国城,陈珊.基于Bagging的概率神经网络集成分类算法[J].计算机科学,2013,40(5):242-246. 被引量：43
7屈茂辉,郝士铭.基于ARMA模型的我国财产类犯罪人数预测研究[J].中国刑事法杂志,2013(4):100-106. 被引量：16
8王莉丽,朱焱,马永强.基于朴素贝叶斯的伪装型垃圾网页检测[J].计算机应用,2013,33(A01):102-103. 被引量：4
9楼晓俊,孙雨轩,刘海涛.聚类边界过采样不平衡数据分类方法[J].浙江大学学报（工学版）,2013,47(6):944-950. 被引量：31
10吴林锦,武东英,刘胜利,刘龙.基于本体的网络入侵知识库模型研究[J].计算机科学,2013,40(9):120-124. 被引量：10

引证文献8

1谭浩,田爱奎,郑睿.基于高校学生消费数据的贫困生评价分析[J].电脑知识与技术,2017,13(7X):220-221. 被引量：2
2李国和,张腾,吴卫江,洪云峰,周晓明.面向机器学习的训练数据集均衡化方法[J].计算机工程与设计,2019,40(3):812-818. 被引量：12
3徐萌,席泽西,王雍赟,李晓露.基于集成学习的航空发动机故障诊断方法[J].中国民航大学学报,2019,37(2):29-33. 被引量：7
4张忠林,吴挡平.基于概率阈值Bagging算法的不平衡数据分类方法[J].计算机工程与科学,2019,41(6):1086-1094. 被引量：15
5魏欢.基于二元分类的伪装型垃圾网页高效检测方法[J].兰州工业学院学报,2019,26(4):76-80.
6刘学文,王继奎,杨正国,李强,易纪海,李冰,聂飞平.密度峰值优化的球簇划分欠采样不平衡数据分类算法[J].计算机应用,2022,42(5):1455-1463. 被引量：10
7汤亮,张晓冰,成林芳.基于CanpoySMOTE和自适应学习的入侵检测方法研究[J].计算技术与自动化,2022,41(4):123-128.
8张齐,李雪琛.基于机器学习的多标签盗窃犯罪类型识别方法研究[J].中国人民公安大学学报（自然科学版）,2023,29(1):88-93. 被引量：2

二级引证文献48

1车敏诗,聂春燕,范如俊,杨承金,阮新磊.一种基于混沌特征及优化CHAID决策树的情绪识别方法[J].计算机应用研究,2020,37(S02):105-107. 被引量：3
2于业松,尹宏佳.基于高校智慧财务数据的大学生消费水平分析建模研究[J].信息化研究,2022,48(6):1-6.
3孙海铭,曹桐滔,代作晓,彭鹏.基于双通道图像的电力设备智能监测技术研究[J].激光与红外,2019,49(11):1338-1343. 被引量：24
4齐玉东,丁海强,赵锦超,孙明玮.基于biRNN的海军军械不均衡文本数据集处理方法[J].计算机与现代化,2019,0(12):21-26. 被引量：3
5王维嘉,孙亚运,孙洪亮,范强.基于多目标优化技术的多源异构数据分类研究[J].计算机与数字工程,2020,48(1):130-136. 被引量：9
6陈平平,耿笑冉,邹敏,谭定英.基于机器学习的文本情感倾向性分析[J].计算机与现代化,2020,0(3):77-81. 被引量：14
7史步海,许家祥,蒋通.基于Bagging算法的盾构机故障诊断方法[J].自动化与信息工程,2020,41(1):5-9. 被引量：3
8邓一星.云计算环境下自适应随机数据组合分类算法[J].计算机仿真,2020,37(7):281-284. 被引量：1
9陈泉杉,陈文会,任鹏.航空发动机气路故障的智能诊断方法研究[J].内燃机与配件,2020(17):123-124. 被引量：2
10包涵,范晓安.云计算环境下不平衡大数据动态分类仿真[J].计算机仿真,2020,37(8):311-314. 被引量：8

1杨凡,朱焱,唐寿洪.基于免疫克隆选择算法的垃圾网页检测[J].计算机应用与软件,2015,32(6):20-23. 被引量：1
2卢晓勇,陈木生,吴政隆,张百栈.基于免疫克隆特征选择和欠采样集成的垃圾网页检测[J].计算机应用,2016,36(7):1899-1903. 被引量：3
3卢晓勇,陈木生.基于随机森林和欠采样集成的垃圾网页检测[J].计算机应用,2016,36(3):731-734. 被引量：17
4文益民,李健,杜飞明,陈方.集成学习算法在不平衡分类中的应用研究[J].计算技术与自动化,2009,28(2):103-106.
5项雪琰,高玲,魏亚利.基于 KPCA 和 RST 的不平衡垃圾网页检测[J].山东师范大学学报（自然科学版）,2015,30(3):10-13.
6李法良,朱焱,曾俊东.集成PCA降维与分类算法的垃圾网页检测[J].计算机应用与软件,2014,31(10):269-272. 被引量：4
7王莉丽,朱焱,马永强.基于朴素贝叶斯的伪装型垃圾网页检测[J].计算机应用,2013,33(A01):102-103. 被引量：4
8高爽,张化祥,房晓南.基于独立成分分析和协同训练的垃圾网页检测[J].山东大学学报（工学版）,2013,43(2):29-34. 被引量：1
9贾志洋,夏幼明,高炜,王勇刚.搜索引擎垃圾网页检测模型研究[J].重庆文理学院学报（自然科学版）,2011,30(5):53-58. 被引量：1
10贾志洋,李伟伟,张海燕.基于内容的搜索引擎垃圾网页检测[J].计算机应用与软件,2009,26(11):165-167. 被引量：9

计算机应用

2017年第2期

浏览历史

内容加载中请稍等...

三种用于垃圾网页检测的随机欠采样集成分类器被引量：8

参考文献2

二级参考文献34

共引文献18

同被引文献54

引证文献8

二级引证文献48

相关作者

相关机构

相关主题

浏览历史

三种用于垃圾网页检测的随机欠采样集成分类器 被引量：8

参考文献2

二级参考文献34

共引文献18

同被引文献54

引证文献8

二级引证文献48

相关作者

相关机构

相关主题

浏览历史

三种用于垃圾网页检测的随机欠采样集成分类器被引量：8