蒙古语有向图形态分析器的判别式词干词缀切分被引量：5

Discriminative Stem-Affix Segmentation for Directed-Graph-Based Mongolian Lexical Analyzer

下载PDF

导出

摘要蒙古语形态分析中,我们之前的有向图模型取得了较高的性能。这种建模方式以图状结构刻画句中词干和词缀之间的概率关系,从而借助上下文信息为每个词确定最佳的切分标注候选。为每个词尽可能地枚举出所有合法的切分标注候选,是有向图模型有效工作的前提。该文提出了一种基于判别式分类的词干词缀切分策略,与之前基于词干表和词缀表的枚举方案相比,该方法对于词中含有未登录词干的情形具有更好的泛化能力。以20万词规模的三级标注人工语料库为训练数据,采用判别式词干词缀切分的有向图形态分析器,对于含有未登录词干的情形,词级切分标注正确率提高了7个百分点。 In Mongolian lexical analysis,the directed-graph-based model achieves high performance.This model uses a directed-graph architecture to describe the probabilistic relationship of stems and affixes,thus to determine the best segmented and tagged candidate for each word according to the context.Therefore,it is essential for a directed-graph-based analyzer to enumerate all legal segmented and tagged candidates for each word.This paper proposes a novel stem-affix segmentation model based on discriminative classification method for Mongolian lexical analysis.Compared with the enumeration strategy based on the stem-and affix sets,this method shows better generalization ability for the words with unknown stems.Using the 3rd-level annotated corpus with about 200000 words as the training data,the directed-graph-based lexical analyzer with discriminative stem-affix segmentation module achieves further 7% improvement on F1 measure（with unknown stems considered）.

作者姜文斌吴金星乌日力嘎那顺乌日图刘群

机构地区中国科学院计算技术研究所内蒙古大学蒙古学学院

出处《中文信息学报》 CSCD 北大核心 2011年第4期30-34,共5页 Journal of Chinese Information Processing

基金国家自然科学基金资助项目(60736014,60873167) 教育部、国家语委民族语言文字规范标准建设及信息化资助项目(MZ115-038)

关键词蒙古语词法分析词性标注词干提取有向图判别式 Mongolian lexical analysis POS tagging stemming directed graph discriminative

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献15

1Hwee Tou Ng and Jin Kiat Low. Chinese part-of-speech tagging: One-at-a-time or all-at-once? Word based or charaeter-based? [C]//Proceedings of EMN- LP, 2004:277-284.
2Wenbin Jiang, Liang Huang, Yajuan Lv, and Qun Liu. A cascaded linear model for joint Chinese word segmentation and part-of-speech tagging[C]//Proceedings of the 46th ACL, 2008:897-904.
3Huaping Zhang, Qun Liu, Xueqi Cheng, Hao Zhang and Hongkui Yu. Chinese Lexical Analysis Using Hierarchical Hidden Markov Model [C]//Preceedings of Second SIGHAN workshop affiliated with 41th ACI., 2003 : 63-70.
4米海涛,熊德意,刘群.中文词法分析与句法分析融合策略研究[J].中文信息学报,2008,22(2):10-17. 被引量：13
5那顺乌日罔,雪艳,叶嘉明.现代蒙古语语料库加工技术的新进展新一代蒙占语词语自动切分与标注系统[C]//第十届全国少数民族语言文字信息处理学术研讨会,2005.
6那顺乌日图,淑琴.面向信息处理的蒙古语规范化研究[J].中央民族大学学报（哲学社会科学版）,2007,34(6):115-122. 被引量：6
7侯宏旭,刘群,那顺乌日图,牧仁高娃,李锦涛.基于统计语言模型的蒙古文词切分[J].模式识别与人工智能,2009,22(1):108-112. 被引量：14
8赵伟,侯宏旭,从伟,宋美娜.基于条件随机场的蒙古语词切分研究[J].中文信息学报,2010,24(5):31-35. 被引量：13
9艳红,王斯日古楞.基于HMM的蒙古文自动词性标注研究[J].内蒙古师范大学学报（自然科学汉文版）,2010,39(2):206-209. 被引量：7
10古丽拉.阿东别克,米吉提.阿布力米提.维吾尔语词切分方法初探[J].中文信息学报,2004,18(6):61-65. 被引量：39

二级参考文献45

1巴达玛敖德斯尔.面向信息处理的蒙古语词语分类体系研究[J].中央民族大学学报（哲学社会科学版）,2004,31(3):93-99. 被引量：3
2刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：198
3华沙宝.蒙古文网络信息技术处理的对策[J].民族语文,2002(6):58-60. 被引量：3
4侯宏旭,刘群,张玉洁,井佐原均.2005年度863机器翻译评测方法研究与实施[J].中文信息学报,2006,20(B03):7-18. 被引量：6
5赵斯琴.蒙古语词性标注系统的设计[J].内蒙古师范大学学报（自然科学汉文版）,2006,35(2):186-188. 被引量：1
6胡冠龙,张建,李淼.改进的基于转换方法的拉丁蒙文词性标注[J].计算机应用,2007,27(4):963-965. 被引量：4
7付雷,刘群.单纯形算法在统计机器翻译Re-ranking中的应用[J].中文信息学报,2007,21(3):28-33. 被引量：2
8侯宏旭,刘群,那顺乌日图.基于实例的汉蒙机器翻译[J].中文信息学报,2007,21(4):65-72. 被引量：16
9那顺乌日图,雪艳,叶嘉明.现代蒙古语语料库加工技术的新进展-新一代蒙古语词语自动切分与标注系统(Darhan Tagging System)[C]//第十届全国少数民族语言文字信息处理学术研讨会论文集.青海:2005.
10Hou Hongxu, Deng Dan, Zou Gang, et al. An EBMT System Based on Word Alignment // Proc of the 4th International Workshop of Spoken Language Translation. Trento, Italy, 2004 : 47 - 49

共引文献68

1许日俊,刘昌平.印刷体朝鲜文字符中字母的分割与识别研究[J].中文信息学报,2006,20(2):66-71. 被引量：2
2阿依克孜.卡德尔,开沙尔.卡德尔,吐尔根.依布拉音.面向自然语言信息处理的维吾尔语名词形态分析研究[J].中文信息学报,2006,20(3):43-48. 被引量：23
3赛麦提.麦麦提明.现代维吾尔语同形词词性自动标注探析[J].语言与翻译,2006(3):35-38. 被引量：1
4卢有飞,张伟,张岩,缪成,李春.维文版Office设计中关键技术的研究与实现[J].中文信息学报,2007,21(2):112-116. 被引量：7
5赵永进,郭大庆,卢有飞,李英凡.维文软件中排版关键技术的研究与实现[J].计算机工程与应用,2007,43(22):106-108. 被引量：8
6张伟,任大明,许晓辉,赵凡,张岩.维、哈、柯文显示及排版技术研究[J].计算机应用研究,2008,25(3):836-838. 被引量：4
7阿孜古丽.夏力甫.维吾尔语动词附加语素的复杂特征研究[J].中文信息学报,2008,22(3):105-109. 被引量：8
8玛依热.依布拉音,米吉提.阿不里米提,艾斯卡尔.艾木都拉.基于最小编辑距离的维语词语检错与纠错研究[J].中文信息学报,2008,22(3):110-114. 被引量：11
9米热古丽.艾力,米吉提.阿不力米提,艾斯卡尔.艾木都拉.基于词法分析的维吾尔语元音弱化算法研究[J].中文信息学报,2008,22(4):43-47. 被引量：17
10吐尔地.托合提,维尼拉.木沙江,艾斯卡尔.艾木都拉.维、哈、柯全文搜索引擎检索器的关键技术[J].计算机工程,2008,34(21):45-47. 被引量：4

同被引文献36

1古丽拉.阿东别克,米吉提.阿布力米提.维吾尔语词切分方法初探[J].中文信息学报,2004,18(6):61-65. 被引量：39
2王斯日古楞.蒙古语单词词性自动识别研究[J].内蒙古师范大学学报（自然科学汉文版）,2007,36(3):319-321. 被引量：2
3哈米提·铁木尔.现代维吾尔语语法[M].北京:民族出版社,1987:246-248.
4哈力克·尼亚孜.基础维吾尔语[M].乌鲁木齐:新疆大学出版社,1997.86-88.
5Nagata, Masaaki, A stochastic Japanese morphological analyzer using a forward- DP backward-A N-best search algorithm[C]//Proceedings of the 15th conference on Computational linguistics-Volume 1, 1994.
6Buckwalter Tim. Buckwalter Arabic Morphological Analyzer Version 1.0, 2002.
7Aisha B. A Letter Tagging Approach to Uyghur Tokenization[C]//Proceedings of the 2010 International Conference on Asian Language Processing:IEEE Computer Society, 2010:11-14.
8Ablimit M, Eli M, Kawahara T. Partly supervised Uyghur morpheme segmentation[C]//Proceedings of the Oriental-COCOSDA Workshop.2008. 71-76.
9侯宏旭,刘群,刘志文,张国强.Skip-N蒙古文统计语言模型[J].内蒙古大学学报（自然科学版）,2008,39(2):220-224. 被引量：8
10阿孜古丽.夏力甫.维吾尔语动词附加语素的复杂特征研究[J].中文信息学报,2008,22(3):105-109. 被引量：8

引证文献5

1赛迪亚古丽.艾尼瓦尔,向露,宗成庆,艾克白尔.帕塔尔,艾斯卡尔.艾木都拉.融合多策略的维吾尔语词干提取方法[J].中文信息学报,2015,29(5):204-210. 被引量：12
2白双成.蒙古文原始语料统计建模研究[J].中文信息学报,2017,31(1):118-125. 被引量：1
3斯.劳格劳.蒙古语固定短语识别算法的设计与实现[J].中文信息学报,2017,31(5):85-91. 被引量：3
4库瓦特拜克·马木提.基于机器学习方法的哈萨克语词干切分研究[J].计算机技术与发展,2020,30(4):182-188.
5何乌云,王斯日古楞.神经网络词切分在蒙汉机器翻译中的应用[J].中央民族大学学报（自然科学版）,2022,31(4):36-46. 被引量：1

二级引证文献17

1孙瑞.基于英语翻译应用视角下的计算机智能校对系统开发研究[J].微型电脑应用,2020,36(2):145-148. 被引量：6
2娜仁图雅,白双成.蒙古语媒体资产编目问题研究[J].广西科学院学报,2018,34(1):72-77.
3徐春,蒋同海,于凯,姜文斌.维吾尔语和韩语形态分析之模型构建[J].北京邮电大学学报,2018,41(1):88-94. 被引量：3
4吐尔根.依布拉音,卡哈尔江.阿比的热西提,艾山.吾买尔,买合木提.买买提.中亚语言自然语言处理综述[J].中文信息学报,2018,32(5):1-13. 被引量：6
5崔丹.英语翻译计算机智能校对系统设计[J].现代电子技术,2019,42(4):179-182. 被引量：12
6古丽尼格尔·阿不都外力,吐尔根·依布拉音,卡哈尔江·阿比的热西提,王路路.基于Bi-LSTM-CRF模型的维吾尔语词干提取的研究[J].中文信息学报,2019,33(8):60-66. 被引量：6
7库瓦特拜克·马木提.基于机器学习方法的哈萨克语词干切分研究[J].计算机技术与发展,2020,30(4):182-188.
8瓦依提·阿不力孜,加米拉·吾守尔,吐尔根·依不拉音.基于词缀附加引擎的维吾尔语名词词干提取研究[J].电视技术,2019,43(20):5-10.
9吾买尔江·买买提明,古丽尼格尔·阿不都外力,买合木提·买买提,卡哈尔江·阿比的热西提,吐尔根·依布拉音.乌兹别克语词干提取算法的比较研究[J].中文信息学报,2020,34(1):45-50. 被引量：2
10沙尔旦尔·帕尔哈提,米吉提·阿不里米提,艾斯卡尔·艾木都拉.基于稳健词素序列和LSTM的维吾尔语短文本分类[J].中文信息学报,2020,34(1):63-70. 被引量：3

1杜波,田怀凤,王立,陆汝占.基于多策略的专业领域术语抽取器的设计[J].计算机工程,2005,31(14):159-160. 被引量：26
2侯宏旭,刘群,那顺乌日图,牧仁高娃,李锦涛.基于统计语言模型的蒙古文词切分[J].模式识别与人工智能,2009,22(1):108-112. 被引量：14
3米莉万.雪合来提,刘凯,吐尔根.依布拉音.基于维吾尔语词干词缀粒度的汉维机器翻译[J].中文信息学报,2015,29(3):201-206. 被引量：12
4赛迪亚古丽.艾尼瓦尔,向露,宗成庆,艾克白尔.帕塔尔,艾斯卡尔.艾木都拉.融合多策略的维吾尔语词干提取方法[J].中文信息学报,2015,29(5):204-210. 被引量：12
5曹卫.基于多阈值和多切分策略的间隙切分算法[J].计算机与数字工程,2011,39(1):131-133. 被引量：2
6孙萌,华却才让,才智杰,姜文斌,吕雅娟,刘群.基于判别式分类和重排序技术的藏文分词[J].中文信息学报,2014,28(2):61-65. 被引量：9
7孟和吉雅,白音门德,敖其尔.基于词干词缀的蒙古语语音合成方法[J].内蒙古大学学报（自然科学版）,2008,39(6):693-697. 被引量：1
8高志江,曾华燊,申志军.一种输入排队交换结构的自适应包切分策略[J].计算机科学,2012,39(9):97-100.
9徐菁,张辉,陆汝占.汉语语料的切分标注加工系统[J].计算机工程,2003,29(9):66-68. 被引量：4
10包春梅,敖其尔,马占新,阿日木扎.蒙古语语音库中动词词缀分库的建立[J].内蒙古大学学报（自然科学版）,2009,40(6):734-737.

中文信息学报

2011年第4期

浏览历史

内容加载中请稍等...

蒙古语有向图形态分析器的判别式词干词缀切分被引量：5

参考文献15

二级参考文献45

共引文献68

同被引文献36

引证文献5

二级引证文献17

相关作者

相关机构

相关主题

浏览历史

蒙古语有向图形态分析器的判别式词干词缀切分 被引量：5

参考文献15

二级参考文献45

共引文献68

同被引文献36

引证文献5

二级引证文献17

相关作者

相关机构

相关主题

浏览历史

蒙古语有向图形态分析器的判别式词干词缀切分被引量：5