基于结构化文档的钓鱼网站检测算法被引量：3

Phishing detection algorithm based on structured document

下载PDF

导出

摘要为利用网站设计的视觉原则并降低钓鱼者修改网页代码组织方式对钓鱼检测的影响,提出基于网页主视觉区域的结构化文档DMVA (document based on main visual area)检测钓鱼网站。提出子间归并算法生成网页的视觉分块;基于用户的视觉行为,结合层DOM树的分层结构,提出主视觉区域的思想,获取网页的分层主视觉区域中文本信息,构造DMVA;提出相关网站集,计算待测网站和相关网站集中网页间的DMVA的相似性,检测钓鱼网站。实验结果表明,基于DMVA检测钓鱼网站算法钓鱼检测方法具有较好的准确度。 To use visual principles of website design and to reduce the impacts of phishers’ modification of webpage code organization on phishing,document based on the main visual area of the webpage,DMVA,was proposed to be applied on phishing detection.The sub-merging algorithm was proposed to generate the visual segmentation of the webpage.Based on the user’s visual behavior and the hierarchical structure of the layer DOM tree,the idea of the main visual area was used to obtain the text information in the hierarchical main visual area of the webpage,and the DMVA was constructed.The relevant website collection was proposed and the similarity of the DMVA between the website under test and the relevant website centralized web page was calculated to detect the phishing website.Experimental results show that the phishing detection method proposed has better accuracy.

作者刘博文王雨琪林果园 LIU Bo-wen;WANG Yu-qi;LIN Guo-yuan(School of Computer Science and Technology,China University of Mining and Technology,Xuzhou 221116,China;Mine Digitization Engineering Research Center of Ministry of Education,China University of Mining and Technology,Xuzhou 221116,China)

机构地区中国矿业大学计算机科学与技术学院中国矿业大学矿山数字化教育部工程研究中心

出处《计算机工程与设计》北大核心 2019年第10期2791-2798,共8页 Computer Engineering and Design

基金江苏省产学研前瞻性联合研究基金项目(BY201602604)

关键词钓鱼检测结构化文档视觉分块视觉行为分层结构 phishing detection structured document visual segmentation visual behavior hierarchical structure

分类号 TP393.09 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献9

1韩浩,刘博文,林果园.基于改进的TrustRank算法的钓鱼网站检测[J].电信科学,2018,34(3):86-94. 被引量：3
2徐欢潇,徐慧,雷丽婷.多特征分类识别算法融合的网络钓鱼识别技术[J].计算机应用研究,2017,34(4):1129-1132. 被引量：6
3杨柳青,李晓东,耿光刚.基于布局相似性的网页正文内容提取研究[J].计算机应用研究,2015,32(9):2581-2586. 被引量：10
4邹学强,张鹏,黄彩云,陈志鹏,孙永,刘庆云.基于页面布局相似性的钓鱼网页发现方法[J].通信学报,2016,37(S1):116-124. 被引量：6
5罗燕,赵书良,李晓超,韩玉辉,丁亚飞.基于词频统计的文本关键词提取方法[J].计算机应用,2016,36(3):718-725. 被引量：77
6张儒清,郭岩,刘悦,俞晓明,程学旗.任意网页的主题信息抽取研究[J].中文信息学报,2017,31(5):127-137. 被引量：6
7赵宁宁,梁意文.综合结构和内容的XML文档相似度计算方法[J].微电子学与计算机,2016,33(4):69-72. 被引量：4
8顾晓清,王洪元,倪彤光,丁辉.基于贝叶斯和支持向量机的钓鱼网站检测方法[J].计算机工程与应用,2015,51(4):87-90. 被引量：13
9周传华,柳智才,丁敬安,周家亿.基于特征选择与集成学习的钓鱼网站检测方法[J].计算机应用研究,2019,36(4):1128-1132. 被引量：7

二级参考文献67

1程克非,张聪.基于特征加权的朴素贝叶斯分类器[J].计算机仿真,2006,23(10):92-94. 被引量：40
2黄文蓓,杨静,顾君忠.基于分块的网页正文信息提取算法研究[J].计算机应用,2007,27(B06):24-26. 被引量：32
3Sheng S,Weidman B,Warner G,et al.An empirical analysis of phishing blacklists[C]//the Sixth Conference on Email and Anti-Spam,California USA,2009:112-118.
4Cranor L,Egelman S,Hong J,et al.Phinding phish:Evaluating antiphishing tools[C]//the 14th Annual Network and Distributed System Security Symposium,2007:381-192.
5Blum A,Warden B,Solaria T,et a1.Lexical Feature based Phishing URL Detection using online Learning[C]//the AISec'10,Chicago USA,2010:54-60.
6Ma J,Kabul L,Savage S,et a1.Beyond b1ackhsts:Learning to detect malicious web sites from suspicious URLs[C]//the KDD'09,Paris France,2009:1245-1254.
7Thomas K,Grier C,Ma J,et a1.Design and evaluation of a real-time URL spam filtering service[C]//the IEEE Symposium on Security and Privacy,California USA,2011:376-382.
8Han Weili,Cao Ye,Elisa Bertino,et al.Using automated individual white-list to protect web digital identities[J].Expert Systems with Applications,2012(39):11861-11869.
9Zhuang W,Jiang Q.Intelligent anti-phishing framework using multiple classifiers combination[J].Journal of Computational Information Systems,2012,8(17):7267-7281.
10Sanglerdsinlapachai N,Rungsawang A.Using domain toppage similarity feature in machine learning-based web phishing detection[C]//the Third International Conference on Knowledge Discovery and Data Mining,Phuket,2010:187-190.

共引文献118

1巴哈古丽·图尼亚孜,玉素甫·艾拜都拉.维吾尔语词频统计系统研究[J].电子世界,2020(3):63-64.
2董妍汝.基于属性聚类的网站集成检测及统计分析[J].内蒙古师范大学学报（自然科学汉文版）,2015,44(4):447-451. 被引量：2
3王文腾,王传涛,袭薇,佟晖.钓鱼网站分类检测算法的比较性研究[J].北京建筑大学学报,2019,35(1):76-81. 被引量：1
4刘健,赵刚,郑运鹏.恶意URL多层过滤检测模型的设计与实现[J].信息网络安全,2016(1):75-80. 被引量：10
5王宇龙,赖华,余正涛,洪旭东,刘书龙.融合结构和内容特征提取多类型网页文本要素[J].山西大学学报（自然科学版）,2016,39(3):386-391. 被引量：1
6向菁菁,耿光刚,李晓东.一种新闻网页关键信息的提取算法[J].计算机应用,2016,36(8):2082-2086. 被引量：6
7夏火松,潘筱听.基于Python挖掘的大数据学术研究与人才需求的关系研究[J].信息资源管理学报,2017,7(1):4-12. 被引量：15
8张锡忠,徐建民.基于术语同义关系的文档相似度研究[J].河北大学学报（自然科学版）,2017,37(1):108-112. 被引量：3
9王年丰,费潇潇.新闻正文信息在线提取方法研究[J].软件导刊,2017,16(4):9-13.
10方振宇.基于抑郁词典的社交网络心理障碍检测方法[J].电脑知识与技术,2017,13(3):244-247. 被引量：6

同被引文献19

1张捷,薄煜明,吕明.基于神经网络预测的网络控制系统故障检测[J].南京理工大学学报,2010,34(1):19-23. 被引量：16
2殷水军,刘嘉勇,刘亮.针对Web-mail邮箱的跨站网络钓鱼攻击的研究[J].通信技术,2010,43(8):164-166. 被引量：16
3张兵,汤进,罗斌.基于超链接和DOM结构树的网页标题实时抽取方法[J].计算机与现代化,2015(8):84-88. 被引量：2
4张兴兰,刘岩.基于DOM树的非规范化表格信息定位技术[J].软件导刊,2016,15(7):10-13. 被引量：2
5唐明,朱磊,邹显春.基于Word2Vec的一种文档向量表示[J].计算机科学,2016,43(6):214-217. 被引量：144
6孟川,武小年.基于文本特征值的正文抽取方法[J].桂林电子科技大学学报,2017,37(2):106-110. 被引量：2
7李红灵,邹建鑫.基于SVM和文本特征向量提取的SQL注入检测研究[J].信息网络安全,2017(12):40-46. 被引量：12
8冯健,张莹.基于文档对象模型结构聚类的钓鱼网页检测方法[J].科学技术与工程,2018,18(23):81-89. 被引量：3
9方勇,龙啸,黄诚,刘亮.基于LSTM与随机森林混合构架的钓鱼网站识别研究[J].工程科学与技术,2018,50(5):196-201. 被引量：6
10周文怡,顾徐波,施勇,薛质.基于机器学习的网页暗链检测方法[J].计算机工程,2018,44(10):22-27. 被引量：20

引证文献3

1印杰,蒋宇翔,牛博威,严梓宸,郭延文.基于深度学习的网页篡改远程检测研究[J].南京理工大学学报,2020,44(1):49-54. 被引量：6
2陆向艳,刘峻.网络钓鱼攻击分析和防范探讨[J].数字通信世界,2022(1):179-181. 被引量：2
3王宝亮,陈伟宁,潘文采.融合DOM树结构向量的行为类别标签预测模型[J].计算机仿真,2022,39(9):257-262. 被引量：2

二级引证文献10

1王林信,罗世刚,李树林,李建锦,李俊业,蔺丽华.基于深度学习的智能电网大数据去隐私化及数据加密方法[J].电子设计工程,2021,29(3):175-178. 被引量：13
2苏江文.基于深度学习的远程监督关系抽取方法研究[J].电子设计工程,2022,30(2):106-109.
3董亚男.基于深度学习的Web网页信息标注方法研究[J].现代信息科技,2021,5(22):89-91.
4周建国,戴华,杨庚,周倩,王俊.基于并列GRU分类模型的日志异常检测方法[J].南京理工大学学报,2022,46(2):198-204. 被引量：4
5邢士发.基于Kali的社工SET钓鱼攻击与研究[J].网络安全技术与应用,2023(4):18-20. 被引量：2
6陈俊生,彭莉芬.一种用于Web UI自动化测试脚本修复的网页元素重定位方法[J].长春师范大学学报,2023,42(8):54-59. 被引量：1
7邢金阁,张鑫,周长建.融合DRAE与SVM的网页防篡改检测[J].福州大学学报（自然科学版）,2023,51(5):652-656.
8巨腾飞,吕丽萍.高级网络钓鱼攻击的研究与防范[J].网络安全技术与应用,2023(12):22-23. 被引量：1
9方世敏.Chameleon聚类算法在Web开源情报主题挖掘中的应用研究[J].信息技术,2024,48(11):63-68.
10左晶,杨新涛.基于区块链技术的互联网暴露面网站批量网页篡改异常检测方法[J].长江信息通信,2024,37(10):83-85.

1朱琪,林果园.基于改进随机森林算法的钓鱼网站检测方法研究[J].微电子学与计算机,2019,36(4):43-46. 被引量：5
2杨巨帅.述评之五践行“以人民为中心”,深入整治“蝇贪蚁腐”[J].中国纪检监察,2018(12):17-18.
3北京：197个市级部门晒预算首现政府购买服务预算[J].中国招标,2018,0(11):49-49.
4王乐夫.做好教师思想政治工作贵在坚持有氧运动[J].湖南教育（中旬）（B）,2017,0(9):16-16.
5杨娟,吴志明,张远鹏.网络家用纺织品资源抽取方法[J].纺织学报,2018,39(10):156-161. 被引量：1
6《广州中医药大学学报》编辑部.警示：钓鱼网站http：//www.gzzyydxxb.cn/为假冒本刊网站[J].广州中医药大学学报,2019,36(10):1562-1562.
7温亚琪(文/图).天津,一座来了就不想走的城市[J].中国消费者,2019,0(9):58-59.
8朱基钗.脱贫攻坚,中央巡视组发现了哪些问题?[J].法治与社会,2019(4):52-53.
9唐绪容,周蓉,屈虹,高迅,钟茜.儿童压力性损伤风险评估量表的比较分析[J].护理学杂志,2019,34(18):58-61. 被引量：5
10李璟.探讨服务型政府网站建设的完善和发展[J].中外企业家,2019,0(26):68-69. 被引量：1

计算机工程与设计

2019年第10期

浏览历史

内容加载中请稍等...

基于结构化文档的钓鱼网站检测算法被引量：3

参考文献9

二级参考文献67

共引文献118

同被引文献19

引证文献3

二级引证文献10

相关作者

相关机构

相关主题

浏览历史

基于结构化文档的钓鱼网站检测算法 被引量：3

参考文献9

二级参考文献67

共引文献118

同被引文献19

引证文献3

二级引证文献10

相关作者

相关机构

相关主题

浏览历史

基于结构化文档的钓鱼网站检测算法被引量：3