摘要
统计机器翻译对时间、数字、量词的泛化能力较弱,为了提高汉维机器翻译系统对时间、数字和量词短语的翻译性能,该文利用双语语料库挖掘并提取汉语时间、数字、量词表达与翻译模式,实现了基于模板的时间、数字、无歧义量词翻译方法及基于上下文的有歧义量词翻译方法。时间、数字、无歧义量词、有歧义量词的翻译F值达到了93.23%、90.15%、96.55%、87.58%,实验证明,该方法具有简单高效的优点。
The Chinese-Uyghur statistical machine translation system for times,numerals and quantifiers generalization ability are relatively weak.This paper uses a corpus approach to mine and extract the Chinese times,numerals and quantifier,realizing context based ambiguous quantifier translation.Experimental results show that the proposed method achieves 93.23%,90.15%,96.55%,and 87.58%in F-measure for the translation of times,numerals,unambiguous quantifiers and ambiguous quantifiers.
出处
《中文信息学报》
CSCD
北大核心
2016年第6期190-200,共11页
Journal of Chinese Information Processing
基金
新疆多语种信息技术实验室开放课题(2016D03023)
国家重点基础研究发展(973)计划(2014CB340506)
国家自然科学基金(61331011
61262060
61262061
61063026
61462083)
关键词
时间数字
无歧义量词
有歧义量词
翻译规则
翻译模板
times and numerals
unambiguous quantifiers
ambiguous quantifiers
translation rules
translation template