摘要
藏文分词是藏文信息处理的一个基本步骤,该文描述了我们将一个基于HMM的汉语分词系统Segtag移植到藏文的过程,取得了91%的准确率。又在错误分析的基础上,进行了训练词性的取舍、人名识别等处理,进一步提高了准确率。
This paper describes the porting of a Chinese segmentation system to handle Tibetan.The F-measure of the new Yangjin system is above 91% over a test corpus although the training corpus is relatively small.It also describes more processing upon error analysis which led to further improvement.
出处
《中文信息学报》
CSCD
北大核心
2011年第4期54-56,共3页
Journal of Chinese Information Processing
基金
福建省自然科学基金资助项目(2006J0043)
福建省重点科技项目(2006H0038)
国家863资助项目(2006AA010108)
国家社科基金重点项目(05AYY001)
关键词
藏文分词
自然语言处理
HMM
Tibetan segmentation
natural language processing
HMM