央金藏文分词系统被引量：30

A Tibetan Segmentation System—Yangjin

下载PDF

导出

摘要藏文分词是藏文信息处理的一个基本步骤,该文描述了我们将一个基于HMM的汉语分词系统Segtag移植到藏文的过程,取得了91%的准确率。又在错误分析的基础上,进行了训练词性的取舍、人名识别等处理,进一步提高了准确率。 This paper describes the porting of a Chinese segmentation system to handle Tibetan.The F-measure of the new Yangjin system is above 91% over a test corpus although the training corpus is relatively small.It also describes more processing upon error analysis which led to further improvement.

作者史晓东卢亚军

机构地区厦门大学人工智能研究所西北民族大学机器翻译研究所

出处《中文信息学报》 CSCD 北大核心 2011年第4期54-56,共3页 Journal of Chinese Information Processing

基金福建省自然科学基金资助项目(2006J0043) 福建省重点科技项目(2006H0038) 国家863资助项目(2006AA010108) 国家社科基金重点项目(05AYY001)

关键词藏文分词自然语言处理 HMM Tibetan segmentation natural language processing HMM

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献6

1才智杰.班智达藏文自动分词系统的设计与实现[J].青海师范大学民族师范学院学报,2010,21(2):75-77. 被引量：18
2苏俊峰,祁坤钰,本太.基于HMM的藏语语料库词性自动标注研究[J].西北民族大学学报（自然科学版）,2009,30(1):42-45. 被引量：6
3王维兰,陈万军.藏文字丁、音节频度及其信息熵[J].术语标准化与信息技术,2004(2):27-31. 被引量：17
4才让加.藏语语料库词语分类体系及标记集研究[J].中文信息学报,2009,23(4):107-112. 被引量：18
5扎西加,珠杰.面向信息处理的藏文分词规范研究[J].中文信息学报,2009,23(4):113-117. 被引量：18
6陈玉忠,李保利,俞士汶.藏文自动分词系统的设计与实现[J].中文信息学报,2003,17(3):15-20. 被引量：51

二级参考文献28

1陈小荷.自动分词中未登录词问题的一揽子解决方案[J].语言文字应用,1999(3):103-109. 被引量：26
2孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：101
3李公宜,李海飙.汉字最高阶条件熵及其实验测定[J].上海交通大学学报,1994,28(2):113-120. 被引量：1
4孙茂松,黄昌宁,高海燕,方捷.中文姓名的自动辨识[J].中文信息学报,1995,9(2):16-27. 被引量：87
5祁坤钰.信息处理用藏文自动分词研究[J].西北民族大学学报（哲学社会科学版）,2006(4):92-97. 被引量：34
6周强,俞士汶.汉语短语标注标记集的确定[J].中文信息学报,1996,10(4):1-11. 被引量：35
7才旦夏茸.藏文文法详解[M].西宁：青海民族出版社,1988..
8陈玉忠.信息处理用现代藏语词语的分类方案[C]//第十届全国少数民族语言文字处理学术研讨会论文集,2005.
9青海师范大学民族部.藏汉对照简易藏文读本[M].西宁:青海民族出版社,1996.
10扎西加,多拉,大罗桑朗杰,欧珠.(信息处理用藏语词类及标记集规范》的理论说明[C]//第十一届全国少数民族信息技术研讨会议论文集,2007:441-452.

共引文献101

1朱旭东.西夏文信息熵值的初步计算——以《天盛律令》文本为基础[J].西夏学,2022(2):185-193.
2尼玛扎西,李志蜀,群诺,普顿,拥措,陈安龙.一种在移动电话上实现藏文处理的方法[J].四川大学学报（工程科学版）,2009,41(1):162-167. 被引量：9
3才华.基于小字符集的藏文自动分词技术研究[J].西藏大学学报（社会科学版）,2013,28(5):43-47. 被引量：3
4高定国,索郎桑姆.大型藏语平衡语料库建设中样本类别号的研究[J].西藏大学学报（社会科学版）,2013,28(4):54-58. 被引量：1
5拥措.基于朴素贝叶斯算法的藏文垃圾短信过滤初探[J].西藏大学学报（社会科学版）,2013,28(4):59-64.
6德吉梅朵.面向藏语语料库建设的数量词的分类研究[J].剑南文学（经典教苑）（下）,2013(1):228-229. 被引量：1
7文庭孝,邱均平,侯经川.汉语自动分词研究展望[J].现代图书情报技术,2004(7):6-10. 被引量：20
8文庭孝,侯经川,邱均平,张洋.汉语自动分词新思维:无词典切分[J].情报杂志,2005,24(2):2-4. 被引量：2
9邱均平,文庭孝,周黎明.汉语自动分词与内容分析法研究[J].情报学报,2005,24(3):309-317. 被引量：11
10刘晓英.汉语自动分词研究的发展趋势[J].高校图书馆工作,2005,25(4):25-28. 被引量：4

同被引文献289

1唐琳,郭崇慧,陈静锋.中文分词技术研究综述[J].数据分析与知识发现,2020,4(2):1-17. 被引量：43
2华旦扎西,才智杰,班玛宝.一种基于TC_LSTM的藏文词拼写检查方法[J].中文信息学报,2020,34(5):50-55. 被引量：5
3才智杰,才让卓玛,孙茂松.一种多基元联合训练的藏文词向量表示方法[J].中文信息学报,2020(5):44-49. 被引量：4
4李永宏,孔江平,于洪志.藏语文-音自动规则转换及其实现[J].清华大学学报（自然科学版）,2008,48(S1):621-626. 被引量：20
5尼玛扎西,李志蜀,群诺,普顿,拥措,陈安龙.一种在移动电话上实现藏文处理的方法[J].四川大学学报（工程科学版）,2009,41(1):162-167. 被引量：9
6普布旦增,欧珠.藏文分词中交集型歧义字段的切分方法研究[J].西藏大学学报（社会科学版）,2010,25(S1):196-197. 被引量：2
7仁青措.书面藏语词组结构类型分析[J].西南民族大学学报（人文社会科学版）,1997,18(1). 被引量：2
8扎西加.上下文无关文法与藏语句法分析[J].西藏大学学报（社会科学版）,2013,28(5):37-42. 被引量：7
9才华.基于小字符集的藏文自动分词技术研究[J].西藏大学学报（社会科学版）,2013,28(5):43-47. 被引量：3
10才让叁智.藏文搜索引擎中的分词算法研究[J].西藏大学学报（社会科学版）,2013,28(5):53-57. 被引量：4

引证文献30

1拥措.基于朴素贝叶斯算法的藏文垃圾短信过滤初探[J].西藏大学学报（社会科学版）,2013,28(4):59-64.
2赵栋材.基于虚词切分的藏文分词系统的设计与实现[J].西藏大学学报（社会科学版）,2012,27(5):61-65. 被引量：5
3龙从军.藏语文本信息处理的几个关键问题[J].科研信息化技术与应用,2012,3(4):51-58. 被引量：2
4李亚超,加羊吉,宗成庆,于洪志.基于条件随机场的藏语自动分词方法研究与实现[J].中文信息学报,2013,27(4):52-58. 被引量：27
5华却才让,刘群,赵海兴.判别式藏语文本词性标注研究[J].中文信息学报,2014,28(2):56-60. 被引量：9
6孙萌,华却才让,才智杰,姜文斌,吕雅娟,刘群.基于判别式分类和重排序技术的藏文分词[J].中文信息学报,2014,28(2):61-65. 被引量：9
7艾金勇,陈小莹,华侃.面向Web的藏文文本分词策略研究[J].图书馆学研究,2014(21):42-46. 被引量：5
8龙从军,刘汇丹,诺明花,吴健.基于藏语字性标注的词性预测研究[J].中文信息学报,2015,29(5):211-215. 被引量：7
9李亚超,江静,加羊吉,于洪志.TIP-LAS：一个开源的藏文分词词性标注系统[J].中文信息学报,2015,29(6):203-207. 被引量：27
10洛桑嘎登,杨媛媛,赵小兵.基于知识融合的CRFs藏文分词系统[J].中文信息学报,2015,29(6):213-219. 被引量：16

二级引证文献116

1沙九,冯冲,周鹭琴,李洪政,张天夫,慧慧.面向司法领域的高质量开源藏汉平行语料库构建[J].中文信息学报,2021,35(11):51-59. 被引量：4
2焦自程,赵旭章,史珂轩.双语问答小程序的设计与实现[J].新一代信息技术,2022,5(5):18-20.
3万福成,李冬晨,何向真,徐涛.面向信息检索的藏文文本索引策略研究[J].计算机工程与应用,2014,50(7):208-211. 被引量：1
4康才畯,龙从军.藏语方式状语的语义类型与句法标记[J].民族语文,2014(4):69-74. 被引量：2
5利莉,胡治宇.浅析高校信息检索课程的现状和开展方式[J].景德镇高专学报,2014,29(4):123-124. 被引量：1
6马宁,李亚超,于槐,加羊吉.面向互联网的藏文实体关系模板获取技术研究[J].中央民族大学学报（自然科学版）,2015,24(1):35-39. 被引量：1
7周雁,赵栋材.基于HMM模型的藏语语音合成研究[J].计算机应用与软件,2015,32(5):171-174. 被引量：5
8何向真,李亚超,马宁,于洪志.基于音节标注的藏文自动分词研究[J].计算机应用研究,2015,32(7):1989-1991. 被引量：4
9刘伙玉,王东波,苏新宁.多特征下的科研论文段落自动划分与构成要素识别研究[J].情报学报,2015,34(4):388-397. 被引量：1
10万福成,于洪志,吴玺宏,何向真.面向机器翻译的藏语短语句法研究[J].计算机工程与应用,2015,51(13):211-215. 被引量：5

1娄珽,宋柔,李卫亮,罗智勇.现代汉语分词系统通用接口设计与实现[J].中文信息学报,2001,15(5):1-7. 被引量：6
2葛锐.汉语分词技术初探[J].软件,2013,34(3):140-141. 被引量：4
3沈达阳,孙茂松,黄昌宁.汉语分词系统中的信息集成和最佳路径搜索方法[J].中文信息学报,1997,11(2):34-47. 被引量：13
4李双龙,刘群,王成耀.基于条件随机场的汉语分词系统[J].微计算机信息,2006,22(10S):178-180. 被引量：15
5程冲,黄水清.自适应分词算法中的未登录词识别技术研究[J].情报学报,2009,28(4):530-536. 被引量：5
6姜文志,蒋伟俊,范洪达.汉语分词技术在信息工程中的应用[J].信息与电子工程,2007,5(5):385-387. 被引量：5
7谈文蓉,杨宪泽,谈进,刘莉.MIS智能接口中汉语分词系统的设计与应用[J].计算机科学,2006,33(7):204-206. 被引量：5
8陈琳,何嘉.基于遗传神经算法优化的汉语分词模型[J].西南师范大学学报（自然科学版）,2007,32(4):90-93. 被引量：3
9艾金勇,陈小莹,华侃.面向Web的藏文文本分词策略研究[J].图书馆学研究,2014(21):42-46. 被引量：5
10毋琳,郑逢斌,乔保军,汤赛丽.HENU汉语分词系统中的中文人名识别算法[J].计算机工程与应用,2006,42(14):180-182.

中文信息学报

2011年第4期

浏览历史

内容加载中请稍等...

央金藏文分词系统被引量：30

参考文献6

二级参考文献28

共引文献101

同被引文献289

引证文献30

二级引证文献116

相关作者

相关机构

相关主题

浏览历史

央金藏文分词系统 被引量：30

参考文献6

二级参考文献28

共引文献101

同被引文献289

引证文献30

二级引证文献116

相关作者

相关机构

相关主题

浏览历史

央金藏文分词系统被引量：30