一种新的错误驱动学习方法在中文分词中的应用被引量：9

A New Error-driven Learning Approach for Chinese Word Segmentation

下载PDF

导出

摘要中文分词应用中一个很重要的问题就是缺乏词的统一性定义。不同的分词标准会导致不同的分词结果,不同的应用也需要不同的分词结果。而针对不同的分词标准开发多个中文分词系统是不现实的,因此针对多种不同的分词标准,如何利用现有的分词系统进行灵活有效的输出就显得非常重要。本文提出了一种新的基于转换的学习方法,对分词结果进行后处理,可以针对不同的分词标准进行灵活有效的输出。不同于以往的用于分词的转换学习方法,该方法有效利用了一些语言学信息,把词类和词內结构信息引入规则模板和转换规则中。为了验证该方法,我们在4个标准测试集上进行了分词评测,取得了令人满意的效果。 A well known problem for Chinese word segrnentation（CWS）is that we can not have a unique definition of words. Different standards may result in different word segmentation outputs. It is unrealizable to develop different CWS systems according to different applications or standards, so it is significantly important to flexibly adapt segmentation outputs towards different standards or applications using existing CWS system. The paper presents a linguistically enriched transformation-based learning approach for performing CWS adaptation as a postprocessor. Different from other transform-based learning used in CWS, the approach utilizes some linguistics information, and introduces word class and word internal structure to rule templates and transformations. The performance of the approach is evaluated on four different test sets, which represent four different standards. It turns out to be comparable to several state-ofthe-art approaches which perform Chinese word segmentation based on single standard.

作者夏新松肖建国

机构地区北京大学计算机科学技术研究所

出处《计算机科学》 CSCD 北大核心 2006年第3期160-164,共5页 Computer Science

关键词中文分词规则模板词类词内结构基于转换的学习(TBL) Chinese word segmentation, Rule template, Word class, Word internal structure, Transformation-based Learning（TBL）

分类号 TP391.12 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献12

1Richard S,Emerson T.The first international Chinese word segmentation bakeoff.SIGHAN 2003.
2Richard S,Shih C.Corpus-based methods in Chinese morphology and phonology.In:COOLING 2002.
3Gao Jianfeng,Li Mu,Huang Chang-Ning.Improved source-channel model for Chinese word segmentation.ACL2003.
4Gao J ianfeng,Wu Andi,Li Mu,et al.Adaptive Chinese word segmentation.ACL2004.
5Wu Zimin,Tseng Gwyneth.Chinese text segmentation for text retrieval achievements and problems.JASIS,1993,44 (9):532 ～542.
6Palmer D.A trainable rule-based algorithm for word segmentation.ACL '97.
7Hockenmaier J,Brew C.Error-driven learning of Chinese word segmentation.In:the 12th Pacific Conference on Language and Information,Singapore,Chinese and Oriental Languages Processing Society,1998.218～229.
8Xue Nianwen.Chinese word segmentation as character tagging.Computational Linguistics and Chinese Language Processing,2003.
9Wu Andi,Jiang Z.Word Segmentation in Sentence Analysls. In:Proceedings of the 1998 International Conference on Chinese Information Processing, Beijing, China, 198. 169-180.
10Wu Andi.Customizable segmentation of morphologically derived words in Chinese.International Journal of Computational Linguistics and Chinese Language Processing,2003,8(1):1～27.

同被引文献133

1赵永贞,刘挺,王志伟,陈惠鹏,邵艳秋.汉语文语转换系统中停顿指数的自动标注[J].中文信息学报,2004,18(5):48-55. 被引量：6
2梁以敏,黄德根.基于完全二阶隐马尔可夫模型的汉语词性标注[J].计算机工程,2005,31(10):177-179. 被引量：25
3许建阳,马明,王梅康,郝晋东,曾宪锋.Swanson的非相关文献知识发现法对中医学发展的启示[J].世界科学技术-中医药现代化,2005,7(3):48-52. 被引量：7
4文勖,张宇,刘挺,马金山.基于句法结构分析的中文问题分类[J].中文信息学报,2006,20(2):33-39. 被引量：82
5曹勇刚,曹羽中,金茂忠,刘超.面向信息检索的自适应中文分词系统[J].软件学报,2006,17(3):356-363. 被引量：48
6张云秋,冷伏海.基于非相关文献知识发现中的文本挖掘研究[J].情报理论与实践,2007,30(2):194-197. 被引量：9
7孙茂松,黄昌宁,邹嘉彦,陆方,沈达阳.利用汉字二元语法关系解决汉语自动分词中的交集型歧义[J].计算机研究与发展,1997,34(5):332-339. 被引量：66
8黄昌宁,赵海.中文分词十年回顾[J].中文信息学报,2007,21(3):8-19. 被引量：250
9方曙,张娴,肖国华.专利情报分析方法及应用研究[J].图书情报知识,2007,24(4):64-69. 被引量：113
10Jessup L M, Valacich J S. Group support systems: new perspectives [M]. New York: McMillan Pub-lishing Company, 1992.

引证文献9

1梁妍,朱耀庭.错误驱动学习在未登录词词性标注中的应用[J].计算机工程与设计,2008,29(6):1532-1534. 被引量：1
2李天侠,戴新宇,陈家骏.基于混合模型的交集型歧义消歧策略[J].计算机工程与应用,2008,44(21):5-8. 被引量：2
3马志强,苏依拉.基于次优查找树的词典机制研究[J].内蒙古工业大学学报（自然科学版）,2010,29(4):274-278.
4宋立峰.中文分词算法在专利文献中的应用研究[J].海峡科学,2011(7):9-11. 被引量：5
5李嘉,张朋柱,邓莎莎,原海英.基于多阶段转换学习的群体研讨文本言语行为分类[J].系统管理学报,2012,21(1):126-132. 被引量：2
6李嘉,张朋柱,李欣苗,刘璇.言语行为自动分类研究综述[J].系统管理学报,2013,22(4):526-537. 被引量：7
7韦晓路,徐宽.基于非相关发明专利文献的潜在知识关联分析研究述评[J].图书馆学研究,2015(10):2-5.
8林俊.基于先行断言决策算法和LL递归下降法的专利检索分析器技术研究[J].福建电脑,2015,31(11):25-25.
9李嘉,张朋柱,李欣苗.基于多阶段和分层方法的言语行为分类研究[J].信息系统学报,2013,7(1):100-113.

二级引证文献17

1田占霄,韩宪忠,王克俭.一种改进的长词优先逆向最大匹配分词消歧策略[J].河北农业大学学报,2009,32(4):100-102. 被引量：1
2胡阿明,王卫东.中文分词歧义识别算法的优化[J].现代电子技术,2012,35(8):107-109. 被引量：2
3蔡君,张淋辉.通向三代移动通信的桥梁：GPRS技术及其解决方案概览[J].互联网世界,2000(4):26-31.
4岳金媛,徐金安,张玉洁.面向专利文献的汉语分词技术研究[J].北京大学学报（自然科学版）,2013,49(1):159-164. 被引量：16
5李嘉,张朋柱,李欣苗,刘璇.言语行为自动分类研究综述[J].系统管理学报,2013,22(4):526-537. 被引量：7
6牛秀萍,马建芬.HMM词性标注中高频生词的处理[J].计算机应用与软件,2014,31(2):86-88.
7张杰,张海超,翟东升.面向中文专利权利要求书的分词方法研究[J].现代图书情报技术,2014(9):91-98. 被引量：9
8韦晓路,徐宽.基于非相关发明专利文献的潜在知识关联分析研究述评[J].图书馆学研究,2015(10):2-5.
9孙亚,刘思瑶,陈帅.国外言语行为自动标注研究进展[J].北京科技大学学报（社会科学版）,2017,33(5):12-18. 被引量：1
10马天翼,张朋柱,刘景方.基于网络外包的专业技能关联知识库构建[J].系统管理学报,2017,26(6):1007-1014. 被引量：4

1王达,张坤.基于支持向量机和转换的错误驱动学习方法的组块识别[J].南阳师范学院学报,2009,8(6):68-70.
2梁妍,朱耀庭.错误驱动学习在未登录词词性标注中的应用[J].计算机工程与设计,2008,29(6):1532-1534. 被引量：1
3龙从军,康才畯,李琳,江荻.基于多策略的藏语语义角色标注研究[J].中文信息学报,2014,28(5):176-181. 被引量：3
4王旗,马建芬.基于TBL的手写字体分段技术[J].电脑开发与应用,2011,24(6):53-55.
5宋立峰.中文分词算法在专利文献中的应用研究[J].海峡科学,2011(7):9-11. 被引量：5
6黄德根,王莹莹.基于SVM的组块识别及其错误驱动学习方法[J].中文信息学报,2006,20(6):17-24. 被引量：6
7方艳,周国栋.基于层叠CRF模型的词结构分析[J].中文信息学报,2015,29(4):1-7. 被引量：7
8王天航,史树敏,龙从军,黄河燕,李琳.基于错误驱动学习策略的藏语句法功能组块边界识别[J].中文信息学报,2014,28(5):170-175. 被引量：7
9黄昌宁.中文信息处理中的分词问题[J].语言文字应用,1997(1):74-80. 被引量：83
10张春霞,郝天永.汉语自动分词的研究现状与困难[J].系统仿真学报,2005,17(1):138-143. 被引量：60

计算机科学

2006年第3期

浏览历史

内容加载中请稍等...

一种新的错误驱动学习方法在中文分词中的应用被引量：9

参考文献12

同被引文献133

引证文献9

二级引证文献17

相关作者

相关机构

相关主题

浏览历史

一种新的错误驱动学习方法在中文分词中的应用 被引量：9

参考文献12

同被引文献133

引证文献9

二级引证文献17

相关作者

相关机构

相关主题

浏览历史

一种新的错误驱动学习方法在中文分词中的应用被引量：9