期刊文献+

蒙古语有向图形态分析器的判别式词干词缀切分 被引量:5

Discriminative Stem-Affix Segmentation for Directed-Graph-Based Mongolian Lexical Analyzer
下载PDF
导出
摘要 蒙古语形态分析中,我们之前的有向图模型取得了较高的性能。这种建模方式以图状结构刻画句中词干和词缀之间的概率关系,从而借助上下文信息为每个词确定最佳的切分标注候选。为每个词尽可能地枚举出所有合法的切分标注候选,是有向图模型有效工作的前提。该文提出了一种基于判别式分类的词干词缀切分策略,与之前基于词干表和词缀表的枚举方案相比,该方法对于词中含有未登录词干的情形具有更好的泛化能力。以20万词规模的三级标注人工语料库为训练数据,采用判别式词干词缀切分的有向图形态分析器,对于含有未登录词干的情形,词级切分标注正确率提高了7个百分点。 In Mongolian lexical analysis,the directed-graph-based model achieves high performance.This model uses a directed-graph architecture to describe the probabilistic relationship of stems and affixes,thus to determine the best segmented and tagged candidate for each word according to the context.Therefore,it is essential for a directed-graph-based analyzer to enumerate all legal segmented and tagged candidates for each word.This paper proposes a novel stem-affix segmentation model based on discriminative classification method for Mongolian lexical analysis.Compared with the enumeration strategy based on the stem-and affix sets,this method shows better generalization ability for the words with unknown stems.Using the 3rd-level annotated corpus with about 200000 words as the training data,the directed-graph-based lexical analyzer with discriminative stem-affix segmentation module achieves further 7% improvement on F1 measure(with unknown stems considered).
出处 《中文信息学报》 CSCD 北大核心 2011年第4期30-34,共5页 Journal of Chinese Information Processing
基金 国家自然科学基金资助项目(60736014,60873167) 教育部、国家语委民族语言文字规范标准建设及信息化资助项目(MZ115-038)
关键词 蒙古语 词法分析 词性标注 词干提取 有向图 判别式 Mongolian lexical analysis POS tagging stemming directed graph discriminative
  • 相关文献

参考文献15

二级参考文献45

共引文献68

同被引文献36

  • 1古丽拉.阿东别克,米吉提.阿布力米提.维吾尔语词切分方法初探[J].中文信息学报,2004,18(6):61-65. 被引量:39
  • 2王斯日古楞.蒙古语单词词性自动识别研究[J].内蒙古师范大学学报(自然科学汉文版),2007,36(3):319-321. 被引量:2
  • 3哈米提·铁木尔.现代维吾尔语语法[M].北京:民族出版社,1987:246-248.
  • 4哈力克·尼亚孜.基础维吾尔语[M].乌鲁木齐:新疆大学出版社,1997.86-88.
  • 5Nagata, Masaaki, A stochastic Japanese morphological analyzer using a forward- DP backward-A N-best search algorithm[C]//Proceedings of the 15th conference on Computational linguistics-Volume 1, 1994.
  • 6Buckwalter Tim. Buckwalter Arabic Morphological Analyzer Version 1.0, 2002.
  • 7Aisha B. A Letter Tagging Approach to Uyghur Tokenization[C]//Proceedings of the 2010 International Conference on Asian Language Processing:IEEE Computer Society, 2010:11-14.
  • 8Ablimit M, Eli M, Kawahara T. Partly supervised Uyghur morpheme segmentation[C]//Proceedings of the Oriental-COCOSDA Workshop.2008. 71-76.
  • 9侯宏旭,刘群,刘志文,张国强.Skip-N蒙古文统计语言模型[J].内蒙古大学学报(自然科学版),2008,39(2):220-224. 被引量:8
  • 10阿孜古丽.夏力甫.维吾尔语动词附加语素的复杂特征研究[J].中文信息学报,2008,22(3):105-109. 被引量:8

引证文献5

二级引证文献17

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部