基于因子分解机的灰色产业服务网页过滤方法被引量：1

A Factorization Machine-based Filtering Approach for Gloomy Industry Service Webpages

下载PDF

导出

摘要互联网灰色产业服务日益泛滥,而传统的网页过滤算法无法准确高效地过滤掉灰色产业服务网页。为解决这一问题,基于TF*IDF提出一种改进的网页特征提取和权重计算方法,利用因子分解机模型对网页进行分类,并以代孕网站为例进行实验和评估。实验结果表明,该方法精确率达到98.89%,召回率达到98.63%,且对海量网页的过滤能够在线性时间复杂度内完成,大大提高了灰色产业服务信息过滤精度和效率。 In recent years, Internet gray industry has become rampant. Unfortunately, traditional webpage filtering algorithms are not able to filter the webpages of the gray industry efficiently and accurately. To solve this problem, we first propose an improved method of webpage feature selection and weight calculation based on TF*IDF, and then classify webpages using Factorization Machines. Taking surrogacy website as an example, we conduct extensive experiments and evaluations in the real-world scenarios. The experiment results show that this method achieves a precision of 98.89% and a recall of 98.63%, and is able to filter gray industry webpages in linear time, which greatly improve the accuracy and efficiency of filtering.

作者付强裴佩丁永刚 FU Qiang;PEI Pei;DING Yong-gang(Wuhan Marine Communication Institute,Wuhan 430072,China;School of Computer,Central China Normal University,Wuhan 430079,China;School of Education,Hubei University,Wuhan 430062,China)

机构地区武汉船舶通信研究所华中师范大学计算机学院湖北大学教育学院

出处《软件导刊》 2019年第9期150-153,157,共5页 Software Guide

基金湖北省高等学校人文社科重点基地绩效评价管理研究中心项目(2015JX01)

关键词灰色产业服务网页过滤特征选择权重计算因子分解机 gray industry service webpage filtering feature selection weight calculation factorization machines

分类号 TP319 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献10

1火善栋.用BP神经网络实现中文文本分类[J].计算机时代,2015(11):58-61. 被引量：2
2李村合,唐磊.基于欠采样支持向量机不平衡的网页分类系统[J].计算机系统应用,2017,26(4):230-235. 被引量：3
3俞浩亮,王秋森,冯旭鹏,刘利军,傅铁威,黄青松.基于特征加权的网络不良内容识别方法[J].现代电子技术,2016,39(3):76-79. 被引量：5
4张玉芳,陈小莉,熊忠阳.基于信息增益的特征词权重调整算法研究[J].计算机工程与应用,2007,43(35):159-161. 被引量：33
5王正琦,冯晓兵,张驰.基于两层分类器的恶意网页快速检测系统研究[J].网络与信息安全学报,2017,3(8):44-60. 被引量：6
6LIU Peng,ZHAO Hui-han,TENG Jia-yu,YANG Yan-yan,LIU Ya-feng,ZHU Zong-wei.Parallel naive Bayes algorithm for large-scale Chinese text classification based on spark[J].Journal of Central South University,2019,26(1):1-12. 被引量：21
7康进峰,王国营,梁春迎,谭晓贞.用于色情网页过滤中的KNN算法改进[J].计算机安全,2009(9):17-19. 被引量：1
8张华鑫.基于SVM的文本分类研究[J].情报探索,2015(5):133-135. 被引量：4
9李学明,李海瑞,薛亮,何光军.基于信息增益与信息熵的TFIDF算法[J].计算机工程,2012,38(8):37-40. 被引量：48
10如先姑力·阿布都热西提,亚森·艾则孜,郭文强.维语网页中n-gram模型结合类不平衡SVM的不良文本过滤方法[J].计算机应用研究,2019,36(11):3410-3414. 被引量：5

二级参考文献60

1宋枫溪,郑如冰,王积忠.自动文本分类中两种文本表示方式的比较[J].计算机工程,2004,30(18):124-126. 被引量：6
2赵炜,李生红,苏贵洋,闫飞利.色情网页过滤系统的设计与实现[J].信息安全与通信保密,2004,26(10):105-107. 被引量：2
3胡清华,谢宗霞,于达仁.基于粗糙集加权的文本分类方法研究[J].情报学报,2005,24(1):59-63. 被引量：11
4冯长远,普杰信.Web文本特征选择算法的研究[J].计算机应用研究,2005,22(7):36-38. 被引量：8
5李文斌,刘椿年,陈嶷瑛.基于特征信息增益权重的文本分类算法[J].北京工业大学学报,2006,32(5):456-460. 被引量：19
6柴玉梅,王宇.基于TFIDF的文本特征选择方法[J].微计算机信息,2006,22(08X):24-26. 被引量：32
7张玉芳,彭时名,吕佳.基于文本分类TFIDF方法的改进与应用[J].计算机工程,2006,32(19):76-78. 被引量：121
8曹海.基于文本内容分析的过滤技术研究[J].四川大学学报（自然科学版）,2006,43(6):1248-1252. 被引量：9
9龚静,周经野.一种基于多重因子加权的文本特征项权值计算方法[J].计算技术与自动化,2007,26(1):81-83. 被引量：10
10Aas K,Eikvil L.Text Categorization:A Survey[R].Oslo,Norway:Norwegian Computing Center,Tech.Rep.:NR941,1999.

共引文献112

1杨捷,范美位,罗成臣,张思路.面向电力工单文本的服务失误识别[J].云南大学学报（自然科学版）,2020,42(S02):32-37. 被引量：1
2葛志,常青,江山,柯文俊,杜泽峰.典型软件的故障仿真和预测方法[J].计算机应用研究,2020,37(S01):230-234.
3呼声波,刘希玉.网页分类中特征提取方法的比较与改进[J].山东师范大学学报（自然科学版）,2008,23(3):35-37. 被引量：6
4亢俊健,杜在林,张新东,朱群英.使用信息增益方法选择分类器[J].计算机工程与应用,2009,45(14):158-160.
5余胜,李绍滋,郭锋,张帆.特征表示方法在中医食疗上的应用[J].厦门大学学报（自然科学版）,2009,48(3):354-358. 被引量：2
6陈培,高维.恶意代码行为获取的研究与实现[J].计算机应用,2009,29(B12):76-78. 被引量：7
7何玲,罗玉双.基于相对比较法的文本特征提取[J].福建电脑,2010,26(1):83-83. 被引量：1
8周雪芹,刘建舟,邵雄凯,廖力.中文文本分类中特征提取的方法[J].湖北工业大学学报,2010,25(2):60-62. 被引量：3
9李凯齐,刁兴春,曹建军.基于信息增益的文本特征权重改进算法[J].计算机工程,2011,37(1):16-18. 被引量：9
10许德山,张智雄,王峰,邢美凤.上下文分析与统计特征相结合的英文术语抽取研究[J].现代图书情报技术,2010(12):28-33. 被引量：1

同被引文献9

1王越,张剑金,刘芳芳.一种多特征微博僵尸粉检测方法与实现[J].中国科技论文,2014,9(1):81-86. 被引量：9
2孟祥飞,徐路,王思雨.基于新浪微博的社交网络垃圾用户分析与检测[J].科技与创新,2014(15):125-127. 被引量：3
3陈庄,罗告成.一种改进的K-means算法在异常检测中的应用[J].重庆理工大学学报（自然科学）,2015,29(5):66-70. 被引量：11
4张玉清,吕少卿,范丹.在线社交网络中异常帐号检测方法研究[J].计算机学报,2015,38(10):2011-2027. 被引量：26
5曲强,于洪涛,黄瑞阳.社交网络异常用户检测技术研究进展[J].网络与信息安全学报,2018,4(3):13-23. 被引量：6
6殷亚博,杨文忠,杨慧婷,许超英.基于搜索改进的KNN文本分类算法[J].计算机工程与设计,2018,39(9):2923-2928. 被引量：15
7王煜涵,张春云,赵宝林,袭肖明,耿蕾蕾,崔超然.卷积神经网络下的Twitter文本情感分析[J].数据采集与处理,2018,33(5):921-927. 被引量：21
8袁丽欣,顾益军,赵大鹏.基于XGBoost方法的社交网络异常用户检测技术[J].计算机应用研究,2020,37(3):814-817. 被引量：12
9徐华露,汤娟,刘嘉勇.基于随机森林的微博僵尸账号检测研究[J].现代计算机,2020,26(30):16-20. 被引量：2

引证文献1

1武海燕,李坤明.基于信息增益的KNN社交网络异常用户检测[J].软件导刊,2021,20(4):53-56. 被引量：1

二级引证文献1

1张永刚,吕鹏飞,张悦,姚兴博,冯艳丽.基于Stacking集成学习的恶意URL检测系统设计与实现[J].现代电子技术,2023,46(10):105-109. 被引量：2

1陆国浩.基于群体化的开源软件推荐问题研究[J].沙洲职业工学院学报,2019,22(2):16-20.
2冉昊玺.基于高低阶特征交叉的校园课程推荐系统研究[J].科教导刊（电子版）,2019,0(27):1-4.
3龚玉玲,徐晓栋.计算机绘图双语教学中的学生评价体系研究——基于层次分析法[J].科技创新与生产力,2019(7):81-83.
4张松.探究机电一体化系统在机械工程领域内的应用[J].中国机械,2019,0(4):29-29.
5谭婧怡.论领导干部政德修养的“慎欲”之道[J].科学咨询,2019,0(33):3-4.
6吴思凡,杜煜,徐世杰,杨硕,杜晨.基于长短期记忆-异步优势动作评判的智能车汇入模型[J].汽车技术,2019(10):42-47. 被引量：1
7国际学术传播新工具Ⅳ——Altmetric[J].国际口腔医学杂志,2019,46(5):584-584.
8徐辉.数控机床智能化改造研究与实践[J].中国机械,2019,0(4):30-31. 被引量：3
9周春华,沈建京,李艳,郭晓峰.经典推荐算法研究综述[J].计算机科学与应用,2019,9(9):1803-1813. 被引量：9
10陈雷.参数筛选法在内蒙古扎赉特旗水系沉积物异常评价中的应用[J].地质学刊,2019,43(3):453-459.

软件导刊

2019年第9期

浏览历史

内容加载中请稍等...

基于因子分解机的灰色产业服务网页过滤方法被引量：1

参考文献10

二级参考文献60

共引文献112

同被引文献9

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于因子分解机的灰色产业服务网页过滤方法 被引量：1

参考文献10

二级参考文献60

共引文献112

同被引文献9

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于因子分解机的灰色产业服务网页过滤方法被引量：1