引入混合特征的最大名词短语双向标注融合算法被引量：4

A Combination Algorithm of Bi-directional Labeling in Identifying of Maximal-length Noun Phrases with Hybrid Feature

下载PDF

导出

摘要最大名词短语的识别对机器翻译等诸多自然语言处理任务有着:惹要的意义.以汉语最大名词短语识别为研究任务,在分析现有方法的基础上,从汉语的语H学特殊性以及基于支持向量机的序列标注算法的特点出发,考查了基于混合特征的融合算法的适应性.实验证叨,釆用词和基本组块混合标注单元的标注方法对汉语最大名词短语的识别是有效的,并且其i E反向识别结果具有一定的互补性,在此基础上提出的基于"边界分歧"的双向序列标注融合算法恰能发掘双向识别的互补性,并达到较高的融合精度. Maximal-length noun phrase indentification is meaningful to machine translation and many other natural language processing tasks. For the purpose of studying Chinese maximal-length noun phrases, on the basis of current methods, starting from linguistics particularity in Chinese and characteristics of sequence labeling algorithm based on support vector machine （SVM）, we explore the adaptability of combination algorithm based on hybrid features. The algorithm is effective, by theoretical analysis and experimental results, to identify Chinese maximal-length noun phrase by applying hybrid unit with words and base chunk, and it is complementary in bi-directional labeling results. From the above, a combination algorithm of bi-directional labeling based on ＂boundary fork＂ can discover complement of two directions identification and achieve a high combination accuracy.

作者李业刚黄河燕鉴萍

机构地区山东理工大学计算机科学与技术学院北京理工大学计算机学院北京市海量语言信息处理与云计算应用工程技术研究中心

出处《自动化学报》 EI CSCD 北大核心 2015年第7期1274-1282,共9页 Acta Automatica Sinica

基金国家重点基础研究发展计划(973计划) 2013CB329303) 国家自然科学基金(61132009 61202244 61201352)资助~~

关键词最大名词短语双向标注基本组块混合特征 Maximal-length noun phrase bi-directional labeling base chunk hybrid feature

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献15

1Wang Z G, Zong C Q, Xue N W. Bidirectional sequence la- beling via dual decomposition. In: Proceedings of the 12th China National Conference, CCL 2013 and First Interna- tional Symposium. Suzhou, China: Springer, 2013. 325-332.
2Kudo T, Matsumoto Y. Chunking with support vector machines. In: Proceedings of the 2nd Meeting of the North American Chapter of the Association for Compu- tational Linguistics on Language Technologies. Pittsburgh, PA, USA: Association for Computational Linguistics, 2001. 192-199.
3Tjong Kim Sang E F. Noun phrase recognition by sys- tem combination. In: Proceedings of the 1st North Ameri-can Chapter of the Association for Computational Linguis- tics Conference. Seattle, Washington, USA: Association for Computational Linguistics, 2000. 50-55.
4Chen W L, Zhang Y J, Isahara H. An empirical study of Chi- nese chunking. In: Proceedings of the 2006 COLING/ACL on Main Conference Poster Sessions. Sydney, Australia: As- sociation for Computational Linguistics, 2006. 97-104.
5鉴萍,宗成庆.基于双向标注融合的汉语最长短语识别方法[J].智能系统学报,2009,4(5):406-413. 被引量：9
6李业刚,黄河燕.汉语组块分析研究综述[J].中文信息学报,2013,27(3):1-8. 被引量：12
7周强,孙茂松,黄昌宁.汉语最长名词短语的自动识别[J].软件学报,2000,11(2):195-201. 被引量：37
8Chen K H, Chen H H. Extracting noun phrases from large- scale texts: a hybrid approach and its automatic evaluation. In: Proceedings of the 32nd Annual Meeting of Association of Computational Linguistics. New York, USA: Association for Computational Linguistics, 1994. 234-241.
9Cai D F, Liu X, Zhou Q L, Ye N. Chinese maximal noun phrase parsing based on cascaded conditional random fields. In: Proceedings of the 2009 International Conference on Natural Language Processing and Knowledge Engineering. Dalian, China: IEEE. 2009. 1-7.
10李国臣,王瑞波,李济洪.基于条件随机场模型的汉语功能块自动标注[J].计算机研究与发展,2010,47(2):336-343. 被引量：7

二级参考文献82

1程葳,赵军,刘非凡,徐波.面向口语翻译的双语语块自动识别[J].计算机学报,2004,27(8):1016-1020. 被引量：3
2刘开第,曹庆奎,庞彦军.基于未确知集合的故障诊断方法[J].自动化学报,2004,30(5):747-756. 被引量：59
3刘亚,胡寿松.不确定非线性系统的模糊鲁棒跟踪控制[J].自动化学报,2004,30(6):949-953. 被引量：8
4孙宏林,俞士汶.浅层句法分析方法概述[J].当代语言学,2000,2(2):74-83. 被引量：38
5刘世岳,李珩,张俐,姚天顺.Co-training机器学习方法在中文组块识别中的应用[J].中文信息学报,2005,19(3):73-79. 被引量：8
6王立霞,孙宏林.现代汉语介词短语边界识别研究[J].中文信息学报,2005,19(3):80-86. 被引量：11
7李珩,朱靖波,姚天顺.基于Stacking算法的组合分类器及其应用于中文组块分析[J].计算机研究与发展,2005,42(5):844-848. 被引量：18
8干俊伟,黄德根.汉语介词短语的自动识别[J].中文信息学报,2005,19(4):17-23. 被引量：14
9MI Yang,JING Yuan-Wei.Robust Stabilization of Nonlinear Time Delay Discrete-time Systems Based on T-S Model[J].自动化学报,2006,32(2):207-212. 被引量：1
10冯冲,陈肇雄,黄河燕,张亮,王江伟.基于条件随机域的复杂最长名词短语识别[J].小型微型计算机系统,2006,27(6):1134-1139. 被引量：16

共引文献95

1王东波.基于规则的单层单标记联合结构自动识别[J].文教资料,2008(9):29-31. 被引量：6
2冯冲,陈肇雄,黄河燕,张亮,王江伟.基于条件随机域的复杂最长名词短语识别[J].小型微型计算机系统,2006,27(6):1134-1139. 被引量：16
3姜韶华,党延忠.无词典中英文混合术语抽取及算法研究[J].情报学报,2006,25(3):301-305. 被引量：2
4钱小飞.“地”字结构识别[J].现代语文（下旬．语言研究）,2006(5):61-63. 被引量：2
5姜韶华,党延忠,宣照国.无词典抽词的RMMFS和BMMFS方法及其比较研究[J].情报学报,2006,25(4):499-503. 被引量：5
6李荣,郑家恒.基于语料库的名词短语识别方法[J].济南大学学报（自然科学版）,2007,21(3):243-245. 被引量：2
7奚建清,罗强.基于HMM的汉语介词短语自动识别研究[J].计算机工程,2007,33(3):172-173. 被引量：9
8代翠,周俏丽,蔡东风,杨洁.统计和规则相结合的汉语最长名词短语自动识别[J].中文信息学报,2008,22(6):110-115. 被引量：16
9钱小飞.最长名词短语识别研究[J].现代语文（下旬．语言研究）,2009(7):124-126. 被引量：2
10苗艳军,李军辉,周国栋.统计和规则相结合的并列结构自动识别[J].计算机应用研究,2009,26(9):3403-3406. 被引量：10

同被引文献28

1李妮,关焕梅,杨飘,董文永.基于BERT-IDCNN-CRF的中文命名实体识别方法[J].山东大学学报（理学版）,2020,55(1):102-109. 被引量：54
2张晓艳,王挺,陈火旺.命名实体识别研究[J].计算机科学,2005,32(4):44-48. 被引量：66
3李荣,郑家恒.基于语料库的名词短语识别方法[J].济南大学学报（自然科学版）,2007,21(3):243-245. 被引量：2
4邹宏梅,王挺.SVM和基于转换的错误驱动学习相结合的汉语组块识别[J].计算机工程与科学,2007,29(4):91-94. 被引量：4
5钱小飞.最长名词短语识别研究[J].现代语文（下旬．语言研究）,2009(7):124-126. 被引量：2
6胡乃全,朱巧明,周国栋.混合的汉语基本名词短语识别方法[J].计算机工程,2009,35(20):199-201. 被引量：7
7赵军,黄昌宁.基于转换的汉语基本名词短语识别模型[J].中文信息学报,1999,13(2):1-7. 被引量：41
8李业刚,黄河燕.汉语组块分析研究综述[J].中文信息学报,2013,27(3):1-8. 被引量：12
9李琳,龙从军,江荻.藏语句法功能组块的边界识别[J].中文信息学报,2013,27(6):165-168. 被引量：10
10方芳,王石,王亚,符建辉,曹存根.基于混合方法的含动词名词短语识别研究[J].山西大学学报（自然科学版）,2019,42(1):31-40. 被引量：2

引证文献4

1李业刚,梁丽君,孙福振,王绍卿,于潇.融入双语最大名词短语的机器翻译模型[J].计算机应用研究,2017,34(5):1316-1320. 被引量：9
2王栋,李业刚,张晓,蒲相忠.基于准循环神经网络的中文命名实体识别[J].计算机工程与设计,2020,41(7):2038-2043. 被引量：11
3申晖,张英俊,谢斌红,赵红燕.基于BSTTC模型的中文命名实体识别[J].计算机系统应用,2021,30(6):262-270. 被引量：3
4汤礼欣,周兰江,张力,张建安.融合短语结构的多通道老挝语名词短语识别方法[J].中文信息学报,2022,36(6):61-68.

二级引证文献23

1陈业明,戴齐,刘捷.融合字位置特征的铁路事故命名实体识别[J].计算机系统应用,2022,31(12):211-219. 被引量：3
2孙瑞.基于英语翻译应用视角下的计算机智能校对系统开发研究[J].微型电脑应用,2020,36(2):145-148. 被引量：6
3崔丹.英语翻译计算机智能校对系统设计[J].现代电子技术,2019,42(4):179-182. 被引量：12
4饶岩岩.基于语义特征的复杂长句切分式翻译算法研究[J].周口师范学院学报,2020,37(1):95-99. 被引量：2
5田力.基于汉英短语翻译组合机器自动翻译系统设计与测试研究[J].微型电脑应用,2020,36(5):43-46. 被引量：10
6郑萌.基于变分模型的英汉翻译系统设计[J].电子科技,2020,33(12):75-78. 被引量：1
7廉龙颖.Bi-LSTM+CRF的网络空间安全领域命名实体的识别[J].黑龙江科技大学学报,2020,30(6):717-722. 被引量：4
8岳佩,张浩.用户反馈和模式识别相融合的机器翻译优化研究[J].信息技术,2021,45(1):126-130. 被引量：7
9廖涛,勾艳杰,张顺香.融合注意力机制的BERT-BiLSTM-CRF中文命名实体识别[J].阜阳师范大学学报（自然科学版）,2021,38(3):86-91. 被引量：7
10张月.基于改进短语翻译模型的计算机智能化校对系统研究[J].自动化技术与应用,2021,40(12):58-61. 被引量：2

1鉴萍,宗成庆.基于双向标注融合的汉语最长短语识别方法[J].智能系统学报,2009,4(5):406-413. 被引量：9
2薛醒思,王金水.采用双向个体标注的本体匹配技术[J].福州大学学报（自然科学版）,2016,44(1):64-70. 被引量：2
3李荣.基于隐马尔可夫模型的汉语非嵌套名词短语识别[J].忻州师范学院学报,2004,20(5):122-124. 被引量：1
4张惠春.基于最大熵模型的中文名词短语识别[J].电脑知识与技术（过刊）,2009,15(3X):1928-1930.
5王浩,景阳,王鲜惠,张超,潘蔚,陈奇.面向机器人导航的汉语路径自然语言组块分析方法研究[J].电脑知识与技术,2016,0(4):181-183.
6钱小飞,侯敏.基于混合策略的汉语最长名词短语识别[J].中文信息学报,2013,27(6):16-22. 被引量：7
7李荣,郑家恒,郭梅英.基于遗传算法的隐马尔可夫模型在名词短语识别中的应用研究[J].计算机科学,2009,36(10):244-246. 被引量：4
8冯冲,陈肇雄,黄河燕,张亮,王江伟.基于条件随机域的复杂最长名词短语识别[J].小型微型计算机系统,2006,27(6):1134-1139. 被引量：16
9姜亚辉,姬东鸿.结合半监督与主动学习的复杂名词短语识别[J].计算机工程与设计,2015,36(2):498-501. 被引量：1
10桑乐园,黄德根.基于简单名词短语的汉语介词短语识别研究[J].中文信息学报,2015,29(6):8-12. 被引量：2

自动化学报

2015年第7期

浏览历史

内容加载中请稍等...

引入混合特征的最大名词短语双向标注融合算法被引量：4

参考文献15

二级参考文献82

共引文献95

同被引文献28

引证文献4

二级引证文献23

相关作者

相关机构

相关主题

浏览历史

引入混合特征的最大名词短语双向标注融合算法 被引量：4

参考文献15

二级参考文献82

共引文献95

同被引文献28

引证文献4

二级引证文献23

相关作者

相关机构

相关主题

浏览历史

引入混合特征的最大名词短语双向标注融合算法被引量：4