期刊文献+

串频统计和词形匹配相结合的汉语自动分词系统 被引量:65

An Chinese Word Automatic Segmentation System Based on String Frequency Statistics Combined with Word Matching
下载PDF
导出
摘要 本文介绍了一种汉语自动分词软件系统,该系统对原文进行三遍扫描:第一遍,利用切分标记将文本切分成汉字短串的序列;第二遍,根据各短串的每个子串在上下文中的频度计算其权值,权值大的子串视为候选词;第三遍,利用候选词集和一部常用词词典对汉字短串进行切分。实验表明,该分词系统的分词精度在1.5%左右,能够识别大部分生词。 This paper presents a software system on Chinese automatic word segmentation.The original text is scanned three times:first,the text is cut into short Chinese character string sequence by cut marks;second,every short sting is weighted by its frequency in context,and the short strings weighted heavy are regarded as candidate words;third,short strings are segmented by candidate word set and everyday words.Experiments results shows that the segmentation precision of this word segmentation system is aboue 1.5%,and a large part of new words can be recognized correctly.This system is very suitable to document retrieval and other areas.
出处 《中文信息学报》 CSCD 北大核心 1998年第1期17-25,共9页 Journal of Chinese Information Processing
关键词 中文信息处理 自动分词 汉语 串频统计 词形匹配 hinese Information Processing, Automatic Word Segmentation, Software System
  • 相关文献

参考文献8

  • 1王晓龙,王开铸,李仲荣,白小华.最少分词问题及其解法[J].科学通报,1989,34(13):1030-1032. 被引量:25
  • 2黄昌宁,语言信息处理专论,1996年
  • 3Li Junjie,J Harbin Inst Technol,1995年,2卷,2期
  • 4何克抗,中文信息学报,1995年,5卷,2期,1,28页
  • 5李俊杰,博士学位论文,1995年
  • 6刘源,信息处理用现代汉语分词规范及自动分词方法,1994年
  • 7姚天顺,中文信息学报,1990年,4卷,1期
  • 8刘源,现代汉语常用词词频词典,1990年

二级参考文献4

  • 1梁南元,中文信息学报,1987年,2卷,2期,45页
  • 2刘源,中文信息学报,1986年,1卷,1期,20页
  • 3关英春,计算机研究与发展,1985年,22卷,12期,5页
  • 4管纪文,中文信息处理国际会议论文集.2,1983年

共引文献24

同被引文献401

引证文献65

二级引证文献760

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部