基于规则的中文字符串近似匹配研究被引量：1

Research towards approximate String Matching for Chinese Characters Based on Rules

导出

摘要字符串近似匹配在网络安全中有广泛的应用。本文从中文字符串相似度角度出发,提出了通过单个汉字的细分来提高字符相似度的想法,并从汉字"成簇性"方面进行分析,引出了汉字的Key表示方法,将汉字与Key的映射关系归结为规则,讨论了规则的获取方法。设计了基于规则的中文字符串近似匹配的框架,提出了新的相似度计算模型,并通过实验对整个流程加以验证,证明基于规则的中文字符串近似匹配的优越性。 Approximate string matching is widely used in network security.Stand on the point of the similarity of Chinese strings,this paper proposes an idea which improve the similarity by the division of single Chinese character.And analyzing from the ＂cluster＂ feature of Chinese character,discussing expression of the key of Chinese characters.The relationship between Chinese character and their keys is concluded to rules,and the method that get the rules are also discussed.Moreover,the paper designs a framework of approximate string matching of Chinese characters based on rules,and proposes a new similarity calculating model of strings.And at last,proving the whole flow by an experiment,testify the advantage of this method.

作者王静婷

机构地区南京政治学院上海分院军事信息管理系

出处《网络安全技术与应用》 2010年第12期41-44,40,共5页 Network Security Technology & Application

关键词中文字符串近似匹配成簇性规则 String of Chinese character Approximate string matching Cluster feature Rules

分类号 TP393.08 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献10

1Dekang Lin Patrick Pantel.2001.DIRT-Discovery of Inference Rules from Text[J].Journal of Natural Language Engineering.Fall-Winter 2001.
2P.H.Sellers.The theory and computation of evolutionary distances:Pattern recognition[J].Journal of Algorithms.1980,.
3Li Jianhua,Sun Yuqi.The Research of Chinese Text Proofreading Algorithrn[J] :HIGH TECHNOLOGY LETTERS.2000.
4Gonzalo Navarro.A guided tour to approximate string matching[J].ACM Computing Surveys.2001.
5张仰森.中文校对系统中纠错知识库的构造及纠错建议的产生算法[J].中文信息学报,2001,15(5):33-39. 被引量：11
6Gonzalo Navarro,Mathieu Raffinot[美].柔性字符串匹配[M].中科院计算所网络信息安全研究组译.北京:电子工业出版社.2007.
7张仰森,曹元大,俞士汶.基于规则与统计相结合的中文文本自动查错模型与算法[J].中文信息学报,2006,20(4):1-7. 被引量：34
8张仰森,曹元大,徐波.中文文本自动校错系统中知识库及其构造方法研究[J].小型微型计算机系统,2004,25(12):2237-2242. 被引量：3
9张仰森,曹元大,徐波.基于统计的纠错建议给出算法及其实现[J].计算机工程,2004,30(11):106-109. 被引量：7
10冯志伟.汉字和汉语的计算机处理[J].当代语言学,2001,3(1):1-21. 被引量：23

二级参考文献21

1董振东.语义关系的表达和知识系统的建造[J].语言文字应用,1998(3):79-85. 被引量：59
2冯志伟.Martin Kay的功能合一语法[J].当代语言学,1991(2):34-42. 被引量：3
3杨顺安.语音合成与语音学研究[J].语文建设,1992(8):35-42. 被引量：1
4吴文虎.汉语语音识别的现状与展望[J].语文建设,1992(6):35-37. 被引量：3
5张炘中.计算机汉字识别技术[J].语文建设,1992(10):34-38. 被引量：5
6张仰森,曹元大,徐波.基于统计的纠错建议给出算法及其实现[J].计算机工程,2004,30(11):106-109. 被引量：7
7张磊,周明,黄昌宁,潘海华.中文文本自动校对[J].语言文字应用,2001(1):19-26. 被引量：23
8董亦农,郭锐.MMT（ODA）项目中基于中间语言的分析和生成的机制[J].中文信息学报,1995,9(4):1-13. 被引量：1
9孙茂松,黄昌宁,邹嘉彦,陆方,沈达阳.利用汉字二元语法关系解决汉语自动分词中的交集型歧义[J].计算机研究与发展,1997,34(5):332-339. 被引量：66
10易蓉湘,何克抗.计算机汉语文稿校对系统[J].计算机研究与发展,1997,34(5):346-350. 被引量：12

共引文献66

1斯·劳格劳,白斯勤,白庆格勒图.一种传统蒙古文拼写检查系统的实现[J].中央民族大学学报（哲学社会科学版）,2021,48(1):158-168. 被引量：1
2华旦扎西,才智杰,班玛宝.一种基于TC_LSTM的藏文词拼写检查方法[J].中文信息学报,2020,34(5):50-55. 被引量：5
3刘钦明.“网络语言”典型特征论[J].攀登（哲学社会科学版）,2004,23(3):103-105. 被引量：5
4付晓歌.汉语动结式依存结构与特征结构对比分析[J].襄樊学院学报,2009,30(4):62-65.
5毛建军.《中国基本古籍库》的特色与启示——兼谈古籍全文数据库的标准与规范[J].管理学刊,2009,22(5):104-106. 被引量：5
6陈小荷.中文信息处理概述[J].南京师范大学文学院学报,2002(1):171-176. 被引量：8
7陈笑蓉,秦进,汪维家,陆汝占.中文文本校对技术的研究与实现[J].计算机科学,2003,30(11):53-55. 被引量：7
8刘钦明.“现代汉语的计算机和网络变体”特征论[J].江西教育学院学报,2005,26(6):100-103.
9张仰森,俞士汶.文本自动校对技术研究综述[J].计算机应用研究,2006,23(6):8-12. 被引量：39
10张仰森,曹元大,俞士汶.基于规则与统计相结合的中文文本自动查错模型与算法[J].中文信息学报,2006,20(4):1-7. 被引量：34

同被引文献7

1安洁玉,丁斌芬.基于MapGis的线状地物一致性检查方法[J].科技广场,2009(1):82-83. 被引量：1
2仲志成,仲颖,郭刚.基于实例的本体映射方法研究[J].信息技术,2010,34(8):22-26. 被引量：2
3刘继宝,赵东保.多源点要素的全局一致性自动匹配[J].测绘与空间地理信息,2011,34(3):27-29. 被引量：4
4王海涛,刘海砚,刘栋永,尉伯虎.基于本体的地理信息语义共享方法[J].测绘工程,2012,21(6):4-7. 被引量：6
5余高锋,刘文奇,石梦婷.二元语义粗算子及其语言多属性决策中的应用[J].计算机工程与应用,2014,50(9):249-253. 被引量：10
6吴爱芝.地理本体研究综述[J].科技资讯,2014,12(18):234-235. 被引量：1
7朱蕊,胡英男,周滨,严薇.空间数据更新中多源数据不一致的表现与成因分析[J].测绘通报,2014(3):107-110. 被引量：5

引证文献1

1高保禄,高锐军,王倩,李建洁.基于地理本体推理的多源数据一致性判别方法[J].科技通报,2017,33(7):99-104.

1刘兵,臧天阳,张晶.一种中文字符串近似匹配查询技术研究[J].电脑编程技巧与维护,2013(14):6-6.
2黄荣喜.基于中文字符串匹配算法的考试系统[J].计算机光盘软件与应用,2013,16(13):261-261. 被引量：1
3刘焕焕,陆锋,赵云山.一种适合Java环境的中文快速排序和模糊检索方法[J].电脑知识与技术,2009,5(3):1664-1666. 被引量：3
4孙进,龚沛曾.基于字符串近似匹配的模式生成算法[J].福建电脑,2010,26(2):59-61.
5邵清,叶琨.基于编辑距离和相似度改进的汉字字符串匹配[J].电子科技,2016,29(9):7-11. 被引量：17
6郭冲.基于新闻标题的网络热词发现算法[J].计算机与现代化,2013(3):58-62.
7贾庭会,桂贵生.雕刻机系统中液晶显示模块的实现[J].合肥工业大学学报（自然科学版）,2006,29(11):1346-1349. 被引量：4
8王静婷.基于汉字聚类特征的中文字符串相似度计算研究[J].现代图书情报技术,2011(2):48-53. 被引量：6
9张海军,丁溪源,朱朝勇.一种改进的中文字符串排序方法[J].计算机工程与应用,2010,46(19):129-131. 被引量：3
10陈开渠,赵洁,彭志威.快速中文字符串模糊匹配算法[J].中文信息学报,2004,18(2):58-65. 被引量：23

网络安全技术与应用

2010年第12期

浏览历史

内容加载中请稍等...

基于规则的中文字符串近似匹配研究被引量：1

参考文献10

二级参考文献21

共引文献66

同被引文献7

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于规则的中文字符串近似匹配研究 被引量：1

参考文献10

二级参考文献21

共引文献66

同被引文献7

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于规则的中文字符串近似匹配研究被引量：1