一种面向开源异构数据的网络安全威胁情报挖掘算法被引量：3

Cybersecurity Threat Intelligence Mining Algorithm for Open Source Heterogeneous Data

下载PDF

导出

摘要针对如何从开源网络安全报告中高效挖掘威胁情报的问题,提出了一种基于威胁情报命名实体识别(Threat Intelligence Named Entity Recognition, TI-NER)算法的威胁情报挖掘(TI-NER-based Intelligence Mining, TI-NER-IM)方法。首先,收集了近10年的物联网安全报告并进行标注,构建威胁情报实体识别数据集;其次,针对传统实体识别模型在威胁情报IoC攻击指示器挖掘领域的不足,提出了基于自注意力机制和字符嵌入的威胁情报实体识别(Threat Intelligence Entity Identification based on Self-attention Mechanism and Character Embedding, TIEI-SMCE)模型,该模型融合字符嵌入信息,再通过自注意力机制捕获单词间潜在的依赖权重、语境等特征,从而准确地识别威胁情报IoC实体;然后,基于TIEI-SMCE模型,提出了一种威胁情报命名实体识别算法;最后,集成上述模型和算法,进一步提出了一种新的威胁情报挖掘方法。TI-NER-IM方法能实现从非结构化、半结构化网络安全报告中自动挖掘威胁情报IoC实体。实验结果表明,与BERT-BiLSTM-CRF模型相比,TI-NER-IM方法的F1值提升了1.43%。 To address the problem of how to efficiently mine threat intelligence from open source network security reports,a TI-NER-based intelligence mining(TI-NER-IM)method is proposed.Firstly,the IoT cybersecurity reports of nearly 10 years are collected and annotated to construct a threat intelligence entity identification dataset.Secondly,in view of the lack of performance of traditional entity recognition models in the field of threat intelligence mining,a threat intelligence entity identification based on self-attention mechanism and character embedding(TIEI-SMCE)model is proposed,which fuses character embedding information.The potential dependency weights between words,contexts and other characteristics are then captured through self-attention mechanism to accurately identify threat intelligence entities.Thirdly,a threat intelligence named entity recognition(TI-NER)algorithm based on TIEI-SMCE model is proposed.Finally,a TI-NER-based intelligence mining(TI-NER-IM)method is designed and proposed.TI-NER-IM method enables automated mining of threat intelligence from unstructured and semi-structured security reports.Eexperimental results show that compared with the BERT-BiLSTM-CRF model,TI-NER-IM's F1 value increases by 1.43%.

作者魏涛李志华王长杰程顺航 WEI Tao;LI Zhihua;WANG Changjie;CHENG Shunhang(School of Artificial Intelligence and Computer Science,Jiangnan University,Wuxi,Jiangsu 214122,China)

机构地区江南大学人工智能与计算机学院

出处《计算机科学》 CSCD 北大核心 2023年第6期330-337,共8页 Computer Science

基金工业和信息化部智能制造项目(ZH-XZ-180004) 中央高校基本科研业务费专项资金(JUSRP211A41,JUSRP42003)。

关键词威胁情报挖掘自然语言处理实体抽取攻击指示器(IoC) Threat intelligence mining Natural language processing Entity extraction Indicators of compromise

分类号 TP393.08 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献1

1王昊,林克柔,孟镇,李心蕾.文本表示及其特征生成对法律判决书中多类型实体识别的影响分析[J].数据分析与知识发现,2021,5(7):10-25. 被引量：4

二级参考文献15

1徐亚文,伍德志.法律修辞、语言游戏与判决合法化——对“判决书上网”的法理思考[J].河南省政法管理干部学院学报,2011,26(1):11-18. 被引量：18
2佘贵清,张永安.审判案例自动抽取与标注模型研究[J].现代图书情报技术,2013(6):23-29. 被引量：19
3张琳,秦策,叶文豪.基于条件随机场的法言法语实体自动识别模型研究[J].数据分析与知识发现,2017,1(11):46-52. 被引量：11
4刘晨玥,李兵,吴卫星.基于罪名相关成分标注的刑事裁判文书概要信息提取[J].山东科技大学学报（自然科学版）,2018,37(4):92-101. 被引量：3
5徐建忠,朱俊,赵瑞,张亮,李娇娇.基于超图的非连续法律实体识别[J].信息技术与信息化,2017(5):19-22. 被引量：3
6朱茂然,王奕磊,高松,王洪伟,郑丽娟.中文比较关系的识别:基于注意力机制的深度学习模型[J].情报学报,2019,38(6):612-621. 被引量：8
7黄菡,王宏宇,王晓光.结合主动学习的条件随机场模型用于法律术语的自动识别[J].数据分析与知识发现,2019,3(6):66-74. 被引量：14
8殷章志,李欣子,黄德根,李玖一.融合字词模型的中文命名实体识别研究[J].中文信息学报,2019,33(11):95-100. 被引量：41
9孟昕.基于深度学习的法律文书识别方法研究[J].电子科技,2019,32(12):84-86. 被引量：5
10杨金晶,覃慧,何海波.裁判文书上网公开的中国实践——进展、问题与完善[J].中国法律评论,2019(6):125-147. 被引量：45

共引文献3

1高海慧,张虎.法律文书命名实体识别研究进展[J].北方工业大学学报,2024,36(1):126-135.
2翟姗姗,余华娟,陈健瑶,夏立新.基于多维特征分析的戏曲类方志文献命名实体识别研究[J].情报学报,2024,43(9):1094-1104.
3王希,张传武,刘东升.基于BERT的中文命名实体识别方法[J].人工智能与机器人研究,2021,10(3):215-223.

同被引文献50

1李彦泽.开源科技情报技术体系构建[J].情报科学,2023,41(12):65-74. 被引量：2
2侯亚文.美国推进零信任发展重要举措分析与回顾[J].中国信息安全,2022(12):62-65. 被引量：4
3约翰.安斯沃斯.Challenges in Educating 21^st-Century Information Professionals[J].图书情报知识,2011,28(1):24-28. 被引量：8
4曹畋.大数据环境下的图书馆异构数据统一访问与转化系统[J].图书馆理论与实践,2016,0(2):80-84. 被引量：15
5桑海翎.基于大数据的图书馆异构数据整合机制研究[J].通讯世界,2017,23(7):256-257. 被引量：1
6杨波,赵佳骏,殷作霖,陈睿莹,王小妍,黄水清.基于异构数据的机构网络影响力评价指标相关性研究[J].图书与情报,2017(5):63-68. 被引量：2
7孙燕.大数据时代的数字图书馆异构数据集成研究[J].农业图书情报学刊,2017,29(12):102-104. 被引量：3
8蔡士林.美国国土安全事务中的情报融合[J].情报杂志,2019,38(1):8-12. 被引量：10
9谢海涛,肖雯,黄劲松.科研社交网络中跨学科情报推荐方法研究[J].情报杂志,2019,38(5):186-194. 被引量：4
10孙辉,罗双春,李余彪.大数据技术在信息网络威胁情报中的运用研究[J].信息技术与网络安全,2020,39(5):28-32. 被引量：7

引证文献3

1尹凤兰.基于关键词分析的企业网站用户行为挖掘算法[J].信息与电脑,2023,35(24):73-75.
2刘颖,胡智鹏,韩心怡,王静茹.基于深度学习的突发事件多源异构情报融合及推荐研究[J].情报科学,2024,42(4):136-144.
3李金戈,丁宇征,杨如峰,马依梵,姜丽敏,贺文轩.工业隔离网的安全防御研究[J].网络安全技术与应用,2024(8):9-12.

1张絮飞,邹理.赴非劳务人员使用手机获取疟疾信息的行为研究[J].时代人物,2022(12):69-71.
2汪梦祎,陈珂锐,丁松阳.建筑领域的命名实体识别研究[J].价值工程,2023,42(11):163-165.
3金益锋,马忠红.刑事侦查中人工智能的应用:实践样态、风险挑战与发展策略[J].科技导报,2023,41(7):15-27. 被引量：3
4程顺航,李志华.基于MRC的威胁情报实体识别方法研究[J].信息网络安全,2021(10):76-82. 被引量：1
5姚庆涛.浅析计算机网络应用安全[J].网络安全技术与应用,2023(5):169-171. 被引量：1
6Yu HU,Tiezheng NIE,Derong SHEN,Yue KOU,Ge YU.An integrated pipeline model for biomedical entity alignment[J].Frontiers of Computer Science,2021,15(3):81-95.
7余国,张鹏程.2022年全球能源安全形势评价——《全球能源安全报告》主要观点[J].国际石油经济,2023,31(2):1-6. 被引量：5
8丁晓蔚,赵笑宇,丁毅杰,王献东.基于大数据的互联网金融风险情报实证研究——以P2P网贷为例[J].情报科学,2022,40(12):42-55. 被引量：3
9吴加健.特殊平行四边形最值探究[J].中学生数理化（八年级数学）（人教版）,2023(7):30-31.
10王帅.大数据背景下网络安全态势感知平台技术分析[J].软件,2023,44(4):172-174. 被引量：6

计算机科学

2023年第6期

浏览历史

内容加载中请稍等...

一种面向开源异构数据的网络安全威胁情报挖掘算法被引量：3

参考文献1

二级参考文献15

共引文献3

同被引文献50

引证文献3

相关作者

相关机构

相关主题

浏览历史

一种面向开源异构数据的网络安全威胁情报挖掘算法 被引量：3

参考文献1

二级参考文献15

共引文献3

同被引文献50

引证文献3

相关作者

相关机构

相关主题

浏览历史

一种面向开源异构数据的网络安全威胁情报挖掘算法被引量：3