期刊文献+

基于SVM和k-NN结合的汉语交集型歧义切分方法 被引量:19

A Method of Crossing Ambiguities in Chinese Word Segmentation Based on SVM and k-NN
下载PDF
导出
摘要 本文提出了基于支持向量机 (SVM)和k 近邻 (k NN)相结合的一种分类方法 ,用于解决交集型伪歧义字段。首先将交集型伪歧义字段的歧义切分过程形式化为一个分类过程并给出一种歧义字段的表示方法。求解过程是一个有教师学习过程 ,从歧义字段中挑选出一些高频伪歧义字段 ,人工将其正确切分并代入SVM训练。对于待识别歧义字段通过使用SVM和k NN相结合的分类算法即可得到切分结果。实验结果显示使用此方法可以正确处理 91 .6%的交集歧义字段 ,而且该算法具有一定的稳定性。 This paper presents an algorithm based on the combination of Support Vector Maching(SVM)and k Nearest neighbor (k NN),to deal with ambiguities in Chinese word segmentation.We regard the ambiguities segmentation as a classified problem and propose a vector representation of them.The method to find the solutions is supervised learning.After the ambiguities being selected and classified by handwork,the ambiguities with high frequency are trained by SVM.For the testhing ambiguities,we classify it based on mixed classified algorithm.The experiments show that not only the correct rate can reach 91.6%.for crossing ambiguities,but also the performance of this algorithm is of high stability.
出处 《中文信息学报》 CSCD 北大核心 2001年第6期13-18,共6页 Journal of Chinese Information Processing
关键词 支持向量 类代表点 交集型歧义 汉语自动分词 歧义切分 SVM K-近邻 分类方法 support vector representative point crossing ambiguities chinese automatic segment
  • 相关文献

参考文献4

二级参考文献23

  • 1刘开瑛.现代汉语自动分词评测技术研究[J].语言文字应用,1997(1):103-108. 被引量:15
  • 2孙茂松,黄昌宁,高海燕,方捷.中文姓名的自动辨识[J].中文信息学报,1995,9(2):16-27. 被引量:87
  • 3陈智健.Internet/Intranet上信息查询的研究与实现,汕头大学硕士论文[M].,1998..
  • 4孙茂松 邹嘉彦 等.汉语真实文本中的交集型切歧义.汉语计量与计算研究[M].香港城市大学语言资讯科学研究中心,1998..
  • 5孙茂权 张维杰.英语姓名译名的自动辨识.计算机语言学研究与应用[M].北京语言学院出版社,1993..
  • 6沈达阳 孙茂松.中国地名的自动辨识.计算语言学研究与进展[M].清华大学出版社,1995..
  • 7Lai B Y,Proc of ROCLING-IV,1991年
  • 8Zhang J S,Proc of ROCLING-IV,1991年
  • 9王晓龙,科学通报,1989年,13页
  • 10梁南元,中文信息学报,1987年,1期

共引文献241

同被引文献217

引证文献19

二级引证文献206

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部