期刊文献+

利用上下文信息解决汉语自动分词中的组合型歧义 被引量:24

Solving Combinatorial Ambiguity in Chinese Word Segmentation Using Contextual Information
下载PDF
导出
摘要 组合型歧义切分字段一直是汉语自动分词研究中的一个难点。该文将之视为与WordSenseDisambiguation(WSD)相等价的问题。文章借鉴了WSD研究中广泛使用的向量空间法,选取了20个典型的组合型歧义进行了详尽讨论。提出了根据它们的分布“分而治之”的策略,继而根据实验确定了与特征矩阵相关联的上下文窗口大小、窗口位置区分、权值估计等要素,并且针对数据稀疏问题,利用词的语义代码信息对特征矩阵进行了降维处理,取得了较好的效果。笔者相信,这个模型对组合型歧义切分字段的排歧具有一般性。 Combinatorial ambiguity is a vital issue in Chinese word segmentation.We regard it as an equivalence of the problem of word sense disambiguation(WSD)in language computing.In sight of the vector space model commonly used in WSD and based on detailed observations on 20 typical combinatorial ambiguities,this paper at first presents the strategy of treating these ambiguities separately according to their distribution,then determines by experiments the key factors regarding feature matrix(the size of the context window,the sensitivity of locations in the window as well as weighting of feature words),and lastly makes use of semantic codes of words so as to reduce the dimension of the feature matrix.Preliminary results show that the proposed scheme is satisfactory in performance and may serve as a general solution for processing combinatorial ambiguities.
出处 《计算机工程与应用》 CSCD 北大核心 2001年第19期87-89,106,共4页 Computer Engineering and Applications
基金 国家重点基础研究发展规划项目资助课题(课题编号:G1998030507)
关键词 自然语言处理 中文计算 汉语自动分词 组合型歧义切分字段 中文信息处理 natural language processing,Chinese computing,Chinese word segmentation,Combinatorial ambiguity
  • 相关文献

参考文献4

二级参考文献12

  • 1刘开瑛.现代汉语自动分词评测技术研究[J].语言文字应用,1997(1):103-108. 被引量:15
  • 2孙茂松 邹嘉彦 等.汉语真实文本中的交集型切歧义.汉语计量与计算研究[M].香港城市大学语言资讯科学研究中心,1998..
  • 3Lai B Y,Proc of ROCLING-IV,1991年
  • 4Zhang J S,Proc of ROCLING-IV,1991年
  • 5王晓龙,科学通报,1989年,13页
  • 6梁南元,中文信息学报,1987年,1期
  • 7冯志伟,数理语言学,1985年
  • 8孙茂松,汉语计量与计算研究,1998年
  • 9刘开瑛,语言文字应用,1997年,1期
  • 10Sun Maosong,Proc 5th Conf Applied Natural Language Processing,1997年

共引文献130

同被引文献147

引证文献24

二级引证文献71

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部