摘要
蒙古语短语标注是蒙古语语料库语言学研究的进一步深化。它既要包含语言学需要深入研究的内容,又要解决形式化描述处理的一系列问题。从整体上讲,规则与统计方法相结合,是实现短语自动划分和标注的最佳途径。但是,蒙古语作为一种黏着性语言,其短语结构具有自己独特的一面。我们将立足蒙古语本身,建立适合于蒙古语短语规律的规则集,采取规则和统计相结合,循环渐进的策略。本项目的主要创新点是信息处理用蒙古语短语分类体系、形式化描述及其标记、边界划分规则和知识库。其中,知识库对解决短语歧义划分问题起到决定性的作用。
The tagging of Mongolian phrases is the further study with Mongolian corpus linguistics.It covers the further study of Mongolian linguistics and formal description of Mongolian phrases.In general,the integration of rules and statistical methods is the best way in Mongolian phrase bracketing and tagging.But,Mongolian language has its own characteristics as a language.Based on Mongolian language itself,we will set up a rule set combining with the statistical methods and go forward gradually.This program will create Mongolian phrase classification for Mongolian language information processing,formal description,mark system,Mongolian phrase bracketing rules and a linguistic repository.The repository will play the decisive role in disambiguation of Mongolian phrases.
出处
《中央民族大学学报(哲学社会科学版)》
CSSCI
北大核心
2003年第5期98-100,共3页
Journal of Minzu University of China(Philosophy and Social Sciences Edition)
基金
国家社会科学基金 (批准号为 0 2BYY0 3 6)
国家自然科学基金 (批准号为 60 2 63 0 0 1 )的资助。
关键词
蒙古语
短语
标注
语料库
Mongolian language
phrase
tagging
corpus