基于mRMR与因子分解机的分类模型研究被引量：3

Classification model based on mRMR and factorization machines algorithm

下载PDF

导出

摘要很多学者用“全球恐怖主义研究数据库”GTD数据集,采用博弈论、K近邻法和支持向量机等分析恐怖事件的聚集性,已经取得一些成果.但在前期研究中未有很好考虑数据的稀疏性以及高维度多冗余等会导致聚集分类准确率不高的问题.本文提出一种基于最小冗余最大相关与因子分解机结合的TFM分类模型,使用增量搜索方法寻找近似最优的特征解决高维度多冗余问题和FM方法解决数据稀疏问题,并对预处理后的恐怖袭击事件数据用TFM模型做量化分类.文中使用朴素贝叶斯NB、支持向量机SVM、逻辑回归LR与TFM等4个模型的“马修斯相关系数”MCC进行比较,结果显示TFM的MCC相对于其他三个模型NB、SVM、LR分别提高了49.9%,2.5%,2.3%,可见TFM模型有一定可行性. Many scholars have made some achievements in aggregation analysis of terrorist events by using the data set of "Global Terrorism Research Database"(GTD) with game theory, k-nearest-neighbor method and support vector machine. However, data sparsity and high-dimensional multi-redundancy are not well considered in the previous research, which may lead to low accuracy of clustering classification. This paper proposes a TFM classification model based on "Minimal-redundancy maximal-relevancy" (mRMR) combined with " Factorization Machines " (FM), in which the incremental search method is used to find approximately optimal features to address the high-dimensional multi-redundancy and the data sparsity is tackled with FM method. TFM model is then used to make quantitative classification on the pre-processed terrorist attack data. The experimental results show the proposed TFM model, in terms of Matthews correlation coefficient (MCC), is increased by 49.9%, 2.5% and 2.3% respectively compared with naive Bayes (NB), support vector machine (SVM) and logistic regression (LR). The comparative result demonstrates that TFM model is feasible to some extent.

作者王美龙华邵玉斌杜庆治 WANG Mei;LONG Hua;SHAO Yu-Bin;DU Qing-Zhi(Kunming University of Science and Technology,Faculty of Information Engineering and Automation,Kunming 650000,China)

机构地区昆明理工大学信息工程与自动化学院

出处《四川大学学报（自然科学版）》 CAS CSCD 北大核心 2020年第1期96-102,共7页 Journal of Sichuan University(Natural Science Edition)

基金国家自然科学基金(61761025)

关键词最小冗余最大相关 GTD 因子分解机马修斯相关系数 TFM分类模型 mRMR GTD Factorization machines MCC TFM classification model

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献6

1赵伟卫,李艳颖,赵风芹,魏洒洒.基于互信息和随机森林的混合变量选择算法[J].吉林大学学报（理学版）,2017,55(4):933-939. 被引量：7
2王华华,黄龙,周远文,赵永宽.改进的mRmR特征选择方法在人体行为识别中的应用[J].重庆邮电大学学报（自然科学版）,2019,31(2):261-269. 被引量：4
3董青岭.机器学习与冲突预测--国际关系研究的一个跨学科视角[J].世界经济与政治,2017(7):100-117. 被引量：28
4燕彩蓉,周灵杰,张青龙,李晓林.因子分解机模型的宽度和深度扩展研究[J].软件学报,2019,30(3):822-844. 被引量：7
5秦璐,李旭伟.基于区域标记法的代价敏感支持向量机在股票预测中的研究[J].四川大学学报（自然科学版）,2018,55(2):277-282. 被引量：7
6秦锋,杨波,程泽凯.分类器性能评价标准研究[J].计算机技术与发展,2006,16(10):85-88. 被引量：27

二级参考文献33

1宋枫溪,高林.文本分类器性能评估指标[J].计算机工程,2004,30(13):107-109. 被引量：33
2凌晓峰,SHENG Victor S..代价敏感分类器的比较研究(英文)[J].计算机学报,2007,30(8):1203-1212. 被引量：35
3Tan PangNing,Steinbach M,Kumar V.Introduction to Data Mining[M].[s.l.]:Addison Wesley,2005.
4Bradley A P.The use of the area under the ROC curve in the evaluation of machine learning algorithms[J].Pattern Recognition,1997,30:1145-1159.
5Wu Shaomin,Flach P.Scored and Weighted AUC Metrics for Classifier Evaluation and Selection[A].in Proc 2nd Workshop on ROC Analysis in Machine Learning(ROCML-05)[C].Bonn,Germany:[s.n.],2005.
6Fawcett T.ROC Graphs:Notes and Practical Considerations for Data Mining Researchers[R].HPL-2003-4.[s.l.]:HPLabs,2003.
7Huang Jin,Ling C X.Using AUC and Accuracy in Evaluating Learning Algorithms[J].IEEE Transactions on Knowledge and Data Engineering (TKDE),2005,17(3):299-310.
8Hanley J A,McNeil B J.The Meaning and Use of the Area Under a Receiver Operating Characteristic (ROC) Curve[J].Radiology,1982,143:29-36.
9Adams N M,Hand D J.Comparing classifiers when the misallocation costs are uncertain[J].Pattern Recognition,1999,32(7):1139-1147.
10Hand D J,Till R J.A Simple Generalisation of the Area Under the ROC Curve for Multiple Class Classification Problems[J].Machine Learning,2001,45:171-186.

共引文献74

1郑睿程,顾洁,金之俭,彭虹桥,蔡珑.数据驱动与预测误差驱动融合的短期负荷预测输入变量选择方法研究[J].中国电机工程学报,2020,40(2):487-500. 被引量：41
2陈冲,胡竞天.空间依赖与武装冲突预测[J].国际政治科学,2022,7(2):86-123. 被引量：4
3李爰媛,孟相如,张立,庄凌屹.基于数值型属性约简的SVM网络故障诊断[J].计算机工程,2009,35(7):273-276. 被引量：2
4秦锋,黄俊,程泽凯,杨帆.多标签分类器准确性评估方法的研究[J].计算机技术与发展,2010,20(1):46-49. 被引量：9
5黄晓斌,谭颖骞.网络信息挖掘方法的效果评价[J].情报理论与实践,2011,34(6):97-101.
6刘牛.基于属性加权的朴素贝叶斯分类算法改进[J].网络安全技术与应用,2011(6):72-74. 被引量：6
7高红.基于交叉验证的错误率估计分析[J].科技信息,2011(25). 被引量：2
8高寒,唐降龙,刘家锋,金野.基于图像分类的图像美学评价研究[J].智能计算机与应用,2013,3(4):39-41. 被引量：2
9孙建军,鞠秀芳,裴雷,郑彦宁,潘云涛.基于CART分类方法的期刊操纵引用行为识别建模研究[J].情报学报,2013,32(10):1058-1067. 被引量：3
10李宝富,刘永磊.冲击地压危险性等级识别的随机森林模型及应用[J].科技导报,2015,33(1):57-62. 被引量：6

同被引文献37

1卢睿,李林瑛,孙永义.一种基于随机森林的可疑交易检测方法[J].辽宁工程技术大学学报（自然科学版）,2021,40(1):82-89. 被引量：3
2胡江溢,祝恩国,杜新纲,杜蜀薇.用电信息采集系统应用现状及发展趋势[J].电力系统自动化,2014,38(2):131-135. 被引量：301
3付举磊,刘文礼,郑晓龙,樊瑛,汪寿阳.基于文本挖掘和网络分析的“东突”活动主要特征研究[J].自动化学报,2014,40(11):2456-2468. 被引量：16
4孙菲菲,林平,曹卓.基于旋转森林集成学习的涉恐实体挖掘研究[J].情报杂志,2015,34(5):190-195. 被引量：12
5陆俊,李子,朱炎平,徐志强.智能配用电信息采集业务通信带宽预测[J].电网技术,2016,40(4):1277-1282. 被引量：18
6陈通,付峰,王军,陈霜.基于CAPSO-BPNN的计量装置运行状态预警方法[J].电测与仪表,2016,53(17):65-70. 被引量：2
7位珍珍.后911时代恐怖主义的GTD数据分析[J].情报杂志,2017,36(7):10-15. 被引量：25
8李佳妮,王云峰.表面肌电信号的降噪处理[J].传感器与微系统,2017,36(7):42-44. 被引量：16
9郭璇,吴文辉,肖治庭,袁宏国.基于深度学习和公开来源信息的反恐情报挖掘[J].情报理论与实践,2017,40(9):135-139. 被引量：21
10王一伊.我国反恐问题定量分析研究综述[J].情报杂志,2017,36(11):23-27. 被引量：9

引证文献3

1徐严军,吴蒙,白佳灵,丁熠辉,谢智,卢宏,肖先勇.多特征提取与深度学习关口计量装置异常事件识别方法[J].中国测试,2021,47(5):104-111. 被引量：6
2卢睿,黄俊博,李林瑛.基于BERT-BiLSTM-CRF的涉恐实体识别模型研究[J].数学的实践与认识,2022,52(8):128-136. 被引量：1
3冯凯,董秀成,刘栋博.基于多域融合与特征选择的手势识别研究[J].传感器与微系统,2023,42(5):37-40.

二级引证文献7

1刘慧自,汪颖,胡文曦,肖先勇.考虑信息动态表达的异常用电模式识别云边协同方法[J].电力自动化设备,2022,42(7):59-67. 被引量：7
2李鹏程,徐宏伟,王俊融,柳林溪,刘超翔,李金友.电能计量装置误接线分析方法及数据管理系统设计[J].电力大数据,2022,25(4):76-83. 被引量：2
3李琼林,刘书铭,郑晨,王毅,张博,代双寅,唐钰政.基于隐马尔可夫模型的电压暂降发生时间预测[J].中国测试,2023,49(4):106-113. 被引量：1
4林彤尧,黄天富,吴志武,王春光,黄汉斌,涂彦昭.基于Prophet模型的省级关口计量装置异常判断方法[J].海峡科学,2023(8):25-29.
5叶正娟.基于随机森林的财务异常数据提取方法[J].淮阴师范学院学报（自然科学版）,2024,23(1):13-19.
6赵藟.终端用电信息智能检测与精准计量数据异常识别[J].粘接,2024,51(6):146-150.
7卢睿,李林瑛.一种面向法律文书的命名实体识别模型[J].信息网络安全,2024(11):1783-1792.

1刘思怡,苏运,张焰.基于FP-Growth算法的10kV配电网分支线断线故障诊断与定位方法[J].电网技术,2019,43(12):4575-4581. 被引量：45
2王贞虎.马修斯的大象法则[J].中学时代,2019,0(12):25-25.
3蛰泰.“哲学的新方向:中国视角及对中国视角的看法”中澳哲学研讨会[J].中国哲学年鉴,2016(1):552-552.
4邓从政.高斯环■上一类不可约元的判定方法[J].凯里学院学报,2019,37(6):1-4. 被引量：1
5最爱君.中国老虎消亡史:最后的疯狂100年[J].东西南北,2019,0(15):74-77. 被引量：1
6甘智高,李栋.基丁多传感器数据融合的四旋翼飞行器位置估计[J].中国科技纵横,2019,0(21):76-77.
7盛铭,陈凌珊.一种基于时间序列的CAN总线异常检测方法[J].上海工程技术大学学报,2019,33(3):237-242. 被引量：2
8李明,胡吉霞,侯琳娜,严峻.商品评论情感倾向性分析[J].计算机应用,2019,39(S02):15-19. 被引量：20
9江婧,张怀峰,皮德常.基于卷积神经网络的移动对象目的地预测[J].小型微型计算机系统,2019,40(12):2519-2525. 被引量：5
10安璐,王小燕,李纲.恐怖事件情境下微博信息组织与关联可视化[J].情报杂志,2019,38(12):157-163. 被引量：3

四川大学学报（自然科学版）

2020年第1期

浏览历史

内容加载中请稍等...

基于mRMR与因子分解机的分类模型研究被引量：3

参考文献6

二级参考文献33

共引文献74

同被引文献37

引证文献3

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

基于mRMR与因子分解机的分类模型研究 被引量：3

参考文献6

二级参考文献33

共引文献74

同被引文献37

引证文献3

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

基于mRMR与因子分解机的分类模型研究被引量：3