基于SVM和k-NN结合的汉语交集型歧义切分方法被引量：19

A Method of Crossing Ambiguities in Chinese Word Segmentation Based on SVM and k-NN

下载PDF

导出

摘要本文提出了基于支持向量机 (SVM)和k 近邻 (k NN)相结合的一种分类方法 ,用于解决交集型伪歧义字段。首先将交集型伪歧义字段的歧义切分过程形式化为一个分类过程并给出一种歧义字段的表示方法。求解过程是一个有教师学习过程 ,从歧义字段中挑选出一些高频伪歧义字段 ,人工将其正确切分并代入SVM训练。对于待识别歧义字段通过使用SVM和k NN相结合的分类算法即可得到切分结果。实验结果显示使用此方法可以正确处理 91 .6%的交集歧义字段 ,而且该算法具有一定的稳定性。 This paper presents an algorithm based on the combination of Support Vector Maching(SVM)and k Nearest neighbor (k NN),to deal with ambiguities in Chinese word segmentation.We regard the ambiguities segmentation as a classified problem and propose a vector representation of them.The method to find the solutions is supervised learning.After the ambiguities being selected and classified by handwork,the ambiguities with high frequency are trained by SVM.For the testhing ambiguities,we classify it based on mixed classified algorithm.The experiments show that not only the correct rate can reach 91.6%.for crossing ambiguities,but also the performance of this algorithm is of high stability.

作者李蓉刘少辉叶世伟史忠植

机构地区中国科技大学研究生院(北京)计算机教学部中国科学院计算技术研究所智能开放实验室

出处《中文信息学报》 CSCD 北大核心 2001年第6期13-18,共6页 Journal of Chinese Information Processing

关键词支持向量类代表点交集型歧义汉语自动分词歧义切分 SVM K-近邻分类方法 support vector representative point crossing ambiguities chinese automatic segment

分类号 TP391.12 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1沈达阳,孙茂松.Internet中文个人信息搜索[J].中文信息学报,1999,13(2):24-32. 被引量：7
2孙茂松,黄昌宁,邹嘉彦,陆方,沈达阳.利用汉字二元语法关系解决汉语自动分词中的交集型歧义[J].计算机研究与发展,1997,34(5):332-339. 被引量：66
3孙茂松,左正平,邹嘉彦.高频最大交集型歧义切分字段在汉语自动分词中的作用[J].中文信息学报,1999,13(1):27-34. 被引量：51
4李蓉,叶世伟,史忠植.SVM-KNN分类器——一种提高SVM分类精度的新方法[J].电子学报,2002,30(5):745-748. 被引量：133

二级参考文献23

1刘开瑛.现代汉语自动分词评测技术研究[J].语言文字应用,1997(1):103-108. 被引量：15
2孙茂松,黄昌宁,高海燕,方捷.中文姓名的自动辨识[J].中文信息学报,1995,9(2):16-27. 被引量：87
3陈智健.Internet/Intranet上信息查询的研究与实现，汕头大学硕士论文[M].,1998..
4孙茂松邹嘉彦等.汉语真实文本中的交集型切歧义.汉语计量与计算研究[M].香港城市大学语言资讯科学研究中心,1998..
5孙茂权张维杰.英语姓名译名的自动辨识.计算机语言学研究与应用[M].北京语言学院出版社,1993..
6沈达阳孙茂松.中国地名的自动辨识.计算语言学研究与进展[M].清华大学出版社,1995..
7Lai B Y，Proc of ROCLING-IV，1991年
8Zhang J S，Proc of ROCLING-IV，1991年
9王晓龙，科学通报，1989年，13页
10梁南元，中文信息学报，1987年，1期

共引文献241

1万磊,佟鑫,盛明伟,秦洪德,唐松奇.Softmax分类器深度学习图像分类方法应用综述[J].导航与控制,2019,0(6):1-9. 被引量：62
2张恒,杨文昭,屈景辉,卢虹冰,张亮,赵飞.基于词典和词频的中文分词方法[J].微计算机信息,2008,24(3):239-240. 被引量：19
3赵向军,路梅.垃圾邮件过滤算法研究[J].徐州师范大学学报（自然科学版）,2006,24(4):52-55. 被引量：1
4曹娟,周经野.一种计算汉字串之间相关程度的新方法[J].中文信息学报,2004,18(4):55-59. 被引量：6
5肖升,胡金柱,姚双云,吴锋文.关系词搭配的联列分析[J].宁夏大学学报（人文社会科学版）,2009,31(6):75-79. 被引量：2
6许桢.基于语义网的文本分类系统设计与实现[J].硅谷,2009,2(18).
7王淑盛,徐正光,刘黄伟,王志良,史立峰.改进的K近邻方法在岩性识别中的应用[J].地球物理学进展,2004,19(2):478-480. 被引量：14
8曹倩,丁艳,王超,潘金贵.汉语自动分词研究及其在信息检索中的应用[J].计算机应用研究,2004,21(5):71-74. 被引量：18
9施洁斌.基于支持向量机的文本自动分类试验研究[J].现代图书情报技术,2004(7):27-29.
10张素娟,郑庆华,胡云华,孙霞.一种面向网络答疑的汉语切分歧义消除算法[J].计算机工程与应用,2004,40(25):55-58. 被引量：4

同被引文献217

1张恒,杨文昭,屈景辉,卢虹冰,张亮,赵飞.基于词典和词频的中文分词方法[J].微计算机信息,2008,24(3):239-240. 被引量：19
2孙茂松.谈谈汉语分词语料库的一致性问题[J].语言文字应用,1999(2):90-93. 被引量：20
3黄昌宁.中文信息处理中的分词问题[J].语言文字应用,1997(1):74-80. 被引量：83
4刘开瑛.现代汉语自动分词评测技术研究[J].语言文字应用,1997(1):103-108. 被引量：15
5孙茂松,邹嘉彦.汉语自动分词研究中的苦干理论问题[J].语言文字应用,1995(4):40-46. 被引量：45
6文庭孝,邱均平,侯经川.汉语自动分词研究展望[J].现代图书情报技术,2004(7):6-10. 被引量：20
7张素娟,郑庆华,胡云华,孙霞.一种面向网络答疑的汉语切分歧义消除算法[J].计算机工程与应用,2004,40(25):55-58. 被引量：4
8孙茂松,肖明,邹嘉彦.基于无指导学习策略的无词表条件下的汉语自动分词[J].计算机学报,2004,27(6):736-742. 被引量：37
9李凯,左万利,吕巍.汉语文本中交集型切分歧义的分类处理[J].小型微型计算机系统,2004,25(8):1486-1490. 被引量：3
10李素建,王厚峰,俞士汶,辛乘胜.关键词自动标引的最大熵模型应用研究[J].计算机学报,2004,27(9):1192-1197. 被引量：93

引证文献19

1付艳梅.智能答疑系统的中文分词[J].湖北工业大学学报,2009,24(1):65-67. 被引量：4
2吴启德,吕强.一个比较不同中文分词法的软件[J].苏州大学学报（工科版）,2004,24(6):29-33.
3张春霞,郝天永.汉语自动分词的研究现状与困难[J].系统仿真学报,2005,17(1):138-143. 被引量：60
4张锋,樊孝忠.基于最大熵模型的交集型切分歧义消解[J].北京理工大学学报,2005,25(7):590-593. 被引量：6
5刘迁,贾惠波.中文信息处理中自动分词技术的研究与展望[J].计算机工程与应用,2006,42(3):175-177. 被引量：68
6周文帅,冯速.汉语分词技术研究现状与应用展望[J].山西师范大学学报（自然科学版）,2006,20(1):25-29. 被引量：16
7林琳,黄南天.基于得分点的简答题评分系统设计[J].吉林化工学院学报,2007,24(3):63-65.
8朱小娟,陈特放.基于SVM的词频统计中文分词研究[J].微计算机信息,2007,23(30):205-207. 被引量：10
9余希田,李丹亚,胡铁军.汉语自动分词歧义处理研究[J].医学信息学杂志,2007,28(6):541-544.
10程节华.基于FAQ的智能答疑系统中分词模块的设计[J].计算机技术与发展,2008,18(7):181-183. 被引量：1

二级引证文献206

1马钰淇.论警务工作的当代内核——基于《人民警察法》(修订草案稿)词频统计与分析[J].河南警察学院学报,2021(1):119-128.
2段小斌,林雯,阮百尧,陈基漓.一种基于三级索引词库结构的中文分词方法研究[J].计算机与数字工程,2007,35(7):47-49. 被引量：5
3于清,阿里甫.库尔班.微博语料分词及标注方法初探[J].新疆大学学报（自然科学版）,2013,30(1):81-86. 被引量：1
4崔岩.脚本测试技术在列控中心开发测试中的运用[J].铁路通信信号工程技术,2013,10(S1):149-153. 被引量：2
5金华兴,戴新宇,陈家骏.可扩展统计分词系统的构造[J].计算机工程与应用,2005,41(23):176-178.
6赵志靖,周静,冯锐,齐丙辰.智能人机交互中自动分词技术的实现[J].扬州大学学报（自然科学版）,2005,8(3):58-61. 被引量：3
7熊回香.全文检索中的汉语自动分词及其歧义处理[J].中国图书馆学报,2005,31(5):54-57. 被引量：6
8谈文蓉,杨宪泽,刘莉.汉语自动排歧方法研究[J].西南民族大学学报（自然科学版）,2005,31(6):971-976. 被引量：1
9许春漫.数字图书馆个性化信息检索模型研究[J].现代图书情报技术,2006(3):15-19. 被引量：5
10黄水清,程冲.基于既定词表的自适应汉语分词技术研究[J].现代图书情报技术,2006(5):13-17. 被引量：4

1邓曙光,曾朝晖.汉语分词中一种逐词匹配算法的研究[J].湖南城市学院学报（自然科学版）,2005,14(1):76-78. 被引量：6
2刘挺,王开铸.关于歧义字段切分的思考与实验[J].中文信息学报,1998,12(2):63-64. 被引量：14
3羊毛卓玛,欧珠.一种改进的藏文分词交集型歧义消解方法[J].西藏科技,2012(1):66-68. 被引量：3
4黄鹏,张姝,陈玉华,文斌.一种基于无监督学习的交集型歧义处理改进方法[J].云南师范大学学报（自然科学版）,2015,35(6):45-49. 被引量：1
5倪鹏.浅谈分词中的歧义问题[J].吉林广播电视大学学报,2009(5):59-60.
6张锋,樊孝忠.基于最大熵模型的交集型切分歧义消解[J].北京理工大学学报,2005,25(7):590-593. 被引量：6
7翟凤文,赫枫龄,左万利.基于统计规则的交集型歧义处理方法[J].吉林大学学报（理学版）,2006,44(2):223-228. 被引量：9
8张培颖,李村合.基于知识库的交集型歧义字段切分系统[J].计算机系统应用,2006,15(8):42-43. 被引量：1
9李凯,左万利,吕巍.汉语文本中交集型切分歧义的分类处理[J].小型微型计算机系统,2004,25(8):1486-1490. 被引量：3
10闫引堂,周晓强.交集型歧义字段切分方法研究[J].情报学报,2000,19(6):637-643. 被引量：22

中文信息学报

2001年第6期

浏览历史

内容加载中请稍等...

基于SVM和k-NN结合的汉语交集型歧义切分方法被引量：19

参考文献4

二级参考文献23

共引文献241

同被引文献217

引证文献19

二级引证文献206

相关作者

相关机构

相关主题

浏览历史

基于SVM和k-NN结合的汉语交集型歧义切分方法 被引量：19

参考文献4

二级参考文献23

共引文献241

同被引文献217

引证文献19

二级引证文献206

相关作者

相关机构

相关主题

浏览历史

基于SVM和k-NN结合的汉语交集型歧义切分方法被引量：19