基于改进Trie树的变形敏感词过滤算法被引量：4

Deformation-Sensitive Word Filtering Algorithm Based on Improved Trie Tree

下载PDF

导出

摘要在文本处理中,针对一般敏感词的过滤系统已经十分成熟,但是对于现今普及的变形敏感词的过滤方法有待完善,尤其是对于复杂的中文变形敏感词。针对变形敏感词过滤这一问题,通过对变形敏感词进行分析总结,提出一种基于改进Trie树的变形敏感词过滤算法。该算法经过对变形敏感词分析归类、文本进行分立预处理、构建符合中文特点的Trie树、变形敏感词过滤等阶段,形成一套完整的中文文本过滤体系。经过反复实验表明,该算法不仅可以有效查找中文本中的普通敏感词,并且能高效地过滤出变形敏感词,其中对总敏感词和变形敏感词的查全率分别达到95.46%和92.49%,扩大敏感词查找范围,提高敏感词过滤的精确度。 In text processing,the filtering system for general sensitive words has matured,but the processing methods for deformed sensitive words that are now common are still to be improved,especially for complex Chinese texts that are sensitive to deformation.Through analyzing and summarizing the deformation sensitive words,proposes a sensitive word filtering algorithm based on improved Trie tree.The algorithm pass?es through the process of preprocessing the deformation-sensitive words,preprocessing the text,constructing the Chinese-specific Trie tree,detecting sensitive words,etc.Finally,it can not only effectively find common sensitive words in Chinese text,but also can effectively filter out the deformation-sensitive words.The recall rate of total sensitive words and deformation-sensitive words reach95.46%and92.49%,respectively,which expands the search range of sensitive words and improves the accuracy of filtering of sensitive words.

作者叶情 YE Qing(College of Computer Science, Sichuan University, Chengdu 610065)

机构地区四川大学计算机学院

出处《现代计算机》 2018年第22期3-7,共5页 Modern Computer

基金国家自然科学基金资助项目(No.61332001)

关键词敏感词过滤 TRIE树变形敏感词文本分立模糊匹配 Sensitive Word Filtering Trie Tree Fuzzy Matching Text Separation Deformation-Sensitive Word

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献7

1邓一贵,伍玉英.基于文本内容的敏感词决策树信息过滤算法[J].计算机工程,2014,40(9):300-304. 被引量：32
2李钝,曹元大,万月亮.信息安全中的变形关键词的识别[J].计算机工程,2007,33(21):155-156. 被引量：9
3黄萱菁,夏迎炬,吴立德.基于向量空间模型的文本过滤系统[J].软件学报,2003,14(3):435-442. 被引量：92
4苏贵洋,李建华,马颖华,李生红.用于中文色情文本过滤的近邻法构造算法[J].上海交通大学学报,2004,38(z1):76-79. 被引量：6
5李明,刘晋.基于关联规则的新词发现技术研究[J].科技与企业,2012(9):290-290. 被引量：2
6薛朋强,努尔布力,吾守尔.斯拉木.基于网络文本信息的敏感信息过滤算法[J].计算机工程与设计,2016,37(9):2447-2452. 被引量：32
7李少卿,吴承荣,曾剑平,钟亦平.不良文本变体关键词识别的词汇串相似度计算[J].计算机应用与软件,2015,32(3):151-157. 被引量：7

二级参考文献55

1苏贵洋,李建华,马颖华,李生红.用于中文色情文本过滤的近邻法构造算法[J].上海交通大学学报,2004,38(z1):76-79. 被引量：6
2乔登科,柳厅文,孙永,郭莉.一种获得有限自动机状态间关系的高效算法[J].计算机研究与发展,2012,49(S2):138-144. 被引量：2
3郑家恒,卢娇丽.关键词抽取方法的研究[J].计算机工程,2005,31(18):194-196. 被引量：41
4索红光,刘玉树,曹淑英.一种基于词汇链的关键词抽取方法[J].中文信息学报,2006,20(6):25-30. 被引量：88
5王立希,王建东,汪静.基于数据挖掘的新词发现[J].计算机应用研究,2006,23(12):195-197. 被引量：8
6孙海霞,成颖.信息集成中的字符串匹配技术研究[J].现代图书情报技术,2007(7):22-26. 被引量：10
7[1]Uri Hanani. Information filtering: overview of issues, research and systems [J]. User Modeling and User-Adapted Interaction, 2001, (11 ): 203 - 259.
8[2]Belkin N J, Croft W B. Information filtering and information retrieval: two sides of the same coin? [J].Communications of the ACM, 1992, 35 (12): 29 -37.
9[3]Cover T, Hart P. Nearest neighbor pattern classification [ J]. IEEE Trans Information Theory, 1967,(13): 21-27.
10[4]Church K, Hanks P. Word association norms, mutual information and lexicography[J]. Computational Linguistics, 1990,16 (3): 22- 29.

共引文献158

1董宝力,祁国宁,顾新建.基于混合向量空间模型的主题网站识别[J].清华大学学报（自然科学版）,2005,45(S1):1795-1801. 被引量：4
2孔颖,裘彬强,徐从富.基于CART算法的垃圾邮件过滤模型设计与实现[J].计算机应用,2009,29(2):374-376. 被引量：4
3王映,常毅,谭建龙,白硕.基于N元汉字串模型的文本表示和实时分类的研究与实现[J].计算机工程与应用,2005,41(5):88-91. 被引量：5
4丁月华,文贵华,郭炜强.基于核向量空间模型的专利分类[J].华南理工大学学报（自然科学版）,2005,33(8):58-61. 被引量：12
5战守义,井新.加入时间因素的个性化信息过滤技术[J].北京理工大学学报,2005,25(9):782-785. 被引量：3
6焦玉英,刘伟成,孙吉红.基于向量空间模型的专题文献过滤算法研究[J].情报学报,2005,24(5):562-566. 被引量：3
7贺卫红,曹毅.基于向量空间模型文本过滤算法[J].系统工程,2005,23(10):122-125. 被引量：3
8周晓松 ,但军波 ,孙树楠 .基于域对象的文本过滤模型[J].海军航空工程学院学报,2005,20(6):627-629.
9郭炜强,戴天,文贵华.基于领域知识的专利自动分类[J].计算机工程,2005,31(23):52-54. 被引量：17
10张春元,康耀红.基于示例的Web信息自动获取系统的设计与实现[J].计算机应用,2005,25(B12):55-57.

同被引文献36

1乔登科,柳厅文,孙永,郭莉.一种获得有限自动机状态间关系的高效算法[J].计算机研究与发展,2012,49(S2):138-144. 被引量：2
2宋砚,刘安安,张勇东,林守勋.基于聚类的视频字幕提取方法[J].通信学报,2009,30(2):136-140. 被引量：10
3邓一贵,伍玉英.基于文本内容的敏感词决策树信息过滤算法[J].计算机工程,2014,40(9):300-304. 被引量：32
4刘明珠,郑云非,樊金斐,于芳.基于深度学习法的视频文本区域定位与识别[J].哈尔滨理工大学学报,2016,21(6):61-66. 被引量：11
5尹芳,郑亮,陈田田.基于Adaboost的视频文本定位[J].哈尔滨理工大学学报,2017,22(1):103-108. 被引量：5
6李自清.基于网络的数据库敏感数据加密模型研究[J].计算机测量与控制,2017,25(5):184-187. 被引量：6
7李华.部件拆分与对外汉字部件教学[J].海外华文教育,2017(6):759-767. 被引量：9
8马春来.网络文学出版低俗化的治理路径[J].传媒,2017(21):74-75. 被引量：4
9刘喆.高敏感网络向低敏感网络导出文件方案探索[J].计算机工程与设计,2018,39(1):55-60. 被引量：5
10陈琳,张小平.地表空气悬浮颗粒物图像敏感信息智能过滤系统设计研究[J].环境科学与管理,2017,42(12):43-46. 被引量：1

引证文献4

1朴承哲.基于改进深度学习的网络敏感信息快速过滤研究[J].宁夏师范学院学报,2021,42(1):85-90. 被引量：2
2刘莹,杨超宇.融合有向图的文本敏感词过滤模型[J].绥化学院学报,2022,42(2):143-148. 被引量：2
3关兴义,赵敏,伍文昌.一种基于DFA的短文本信息过滤算法[J].软件导刊,2023,22(4):103-108. 被引量：2
4李雅静,丁海洋.基于MSER视频字幕敏感词过滤算法[J].现代信息科技,2023,7(21):80-84.

二级引证文献6

1林广朋.基于贝叶斯算法的网络信息安全过滤系统设计[J].长江信息通信,2022,35(6):54-56. 被引量：2
2杜俊,李金忠,何新武,李志鸿.基于Spring Cloud微服务架构的非物质文化遗产展示与学习系统的设计与实现[J].广东轻工职业技术学院学报,2024,23(1):14-21.
3董思源,王子扬,章坤,孙美凤.面向中文文本的敏感信息识别方法研究[J].软件,2024,45(3):51-53. 被引量：1
4赵天舒,沈颖,李柏岩,刘晓强,朱旻.基于扩展Trie树的中文敏感词变体检测[J].智能计算机与应用,2024,14(4):215-221.
5曾庆瑞.基于深度学习的涉密敏感信息识别技术研究[J].现代信息科技,2024,8(11):171-175.
6刘轩溢.基于DBNet和改进的Trie树搜索的网络敏感词检测技术[J].自动化与仪器仪表,2024(5):25-28. 被引量：1

1陈寿义,张丽.教材中外译非文学类文本处理策略——以《谈创造性思维》为例[J].中华活页文选（教师）,2018,0(11):76-79. 被引量：1
2郑恒萍.好习惯是走向成功的真谛———谈学生良好物理实验习惯的培养[J].电子乐园,2018(8):394-394.
3白林亭,文鹏程,李亚晖.基于深度学习的视觉问答技术研究[J].航空计算技术,2018,48(5):334-338. 被引量：8
4朱引,黄海燕.基于主题增强的递归自编码情感分类研究[J].计算机科学,2018,45(12):142-147.
5汤其婕,王玙.基于I-GARCH的不确定时间序列概率分布推算[J].计算机技术与发展,2018,28(12):23-28.
6吴乾进.除盐雾通风结构设计分析[J].热带农业工程,2018,42(4):23-26. 被引量：1
7霍炫伊,石岩.体育领域CiteSpace类研究信度、效度影响因素及其控制[J].中国体育科技,2018,54(6):45-51. 被引量：26
8陈照方,姜晨冰.城市区域水污染生态修复的实验分析研究[J].环境科学与管理,2018,43(11):138-142. 被引量：2
9王红,王雪君,杨蓉.基于图划分的领域本体RDF存储方法[J].现代电子技术,2018,41(24):141-145. 被引量：2

现代计算机

2018年第22期

浏览历史

内容加载中请稍等...

基于改进Trie树的变形敏感词过滤算法被引量：4

参考文献7

二级参考文献55

共引文献158

同被引文献36

引证文献4

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

基于改进Trie树的变形敏感词过滤算法 被引量：4

参考文献7

二级参考文献55

共引文献158

同被引文献36

引证文献4

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

基于改进Trie树的变形敏感词过滤算法被引量：4