基于混合策略的汉语最长名词短语识别被引量：7

Chinese Maximal Noun Phrase Recognition Based on Mixed Strategy

下载PDF

导出

摘要该文提出一种基于语言知识评价的分类器集成方法,利用自动获得的搭配资源和人工评价规则,融合了基于支持向量机的最长名词短语识别结果和基于条件随机场的归约识别结果,进一步基于确定性规则有针对性地识别了分类器易出错的特殊结构,提高了对连续动词介词和连续名词造成的边界歧义的识别能力。实验取得了89.30%的正确率和89.62%的召回率,多词结构F1值较归约方法提高了0.75%。 This paper proposed a classifier ensemble method based on the language evaluation, and fused the MNP recognition results of SVMs and cascade CRFs based on reduction method, using the automatically obtained collocations and the manual assess rules. It then further targeted recognized the error-prone structures of the classifiers based on deterministic rules. The methods improve the recognition ability of boundary ambiguities of continuous verbs and prepositions as well as continuous nouns. The experiment is successful with a precision rate of 89.30% and a recall rate of 89.62%, especially it improves Fl-score of multi-words MNPs by 0.75% in contrast with the reduction method.

作者钱小飞侯敏

机构地区上海大学文学院中国传媒大学国家语言资源监测与研究中心有声媒体语言分中心

出处《中文信息学报》 CSCD 北大核心 2013年第6期16-22,共7页 Journal of Chinese Information Processing

基金上海市哲学社会科学规划青年课题资助项目(2013EYY005) 国家语言资源监测与研究中心科研项目(YZYS08-04)

关键词最长名词短语识别语言知识评价分类器集成规则 maximal noun phrase recognition language knowledge assess classifier ensemble rule

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1周强,孙茂松,黄昌宁.汉语最长名词短语的自动识别[J].软件学报,2000,11(2):195-201. 被引量：37
2李文捷,周明,潘海华,等.基于语料库的中文最长名词短语的自动提取[C]//陈力为,袁琦,计算语言学进展与应用.北京:清华大学出版社,1995,119-124.
3冯冲,陈肇雄,黄河燕,张亮,王江伟.基于条件随机域的复杂最长名词短语识别[J].小型微型计算机系统,2006,27(6):1134-1139. 被引量：16
4Chang-hao Yin. Identification of Maximal Noun Phrase in Chinese: Using the Head of Base Phrases [D]. POSTECH, Korea, 2005.
5Gui-ping Zhang, Wenjing Lang, Qiaoli Zhou, et al. I- dentification of Maximal-Length Noun Phrases Based on Maximal-Length Preposition Phrases in Chinese [C]// Proeeedings of IALP 2010; 65-68.
6代翠,周俏丽,蔡东风,杨洁.统计和规则相结合的汉语最长名词短语自动识别[J].中文信息学报,2008,22(6):110-115. 被引量：16
7Xue-Mei Bai, Jin-Ji Li, Dong-I1 Kim, et al. Identifica- tion of Maximal-Length Noun Phrases Based on Ex panded Chunks and Classified Punctuations in Chinese [C]// Proceedings of the 21st ICCPOL, 2006:268- 276.
8鉴萍,宗成庆.基于双向标注融合的汉语最长短语识别方法[J].智能系统学报,2009,4(5):406-413. 被引量：9

二级参考文献48

1黄河燕,陈肇雄.基于多策略的交互式智能辅助翻译平台总体设计[J].计算机研究与发展,2004,41(7):1266-1272. 被引量：12
2孙宏林,俞士汶.浅层句法分析方法概述[J].当代语言学,2000,2(2):74-83. 被引量：38
3王立霞,孙宏林.现代汉语介词短语边界识别研究[J].中文信息学报,2005,19(3):80-86. 被引量：11
4干俊伟,黄德根.汉语介词短语的自动识别[J].中文信息学报,2005,19(4):17-23. 被引量：14
5冯冲,陈肇雄,黄河燕,张亮,王江伟.基于条件随机域的复杂最长名词短语识别[J].小型微型计算机系统,2006,27(6):1134-1139. 被引量：16
6Bourigauh D. Surface grammatical analysis for the ex traction of terminological noun phrases[C]//Boitet C ed. Proceedings of the 15th International Conference on Computational Linguistics (COLING'92). Nantes: Academic Press, 1992. 977-981.
7Voutilamen A. NPTool, a detector of English noun phrases[C]//Church K ed. Proceedings of the Work-shop on Very I.arge Corpora: Academic and Industrial Perspectives. Columbus: Association for Computa tional Linguistics, 1993. 48-57.
8Chen Kuang-hua, Chen Hsin hsi. Extracting noun phrases from large scale texts: a hybrid approach and its automatic evaluation[C]//Proceedings of the 32nd Annual Meeting of Association of Computational Lin guistics. New York: Association for Computational Linguistics, 1994. 234-241.
9李文捷,周明,潘海华,等.基于语料库的中文最长名词短语的自动提取[C]//陈力为,袁琦,计算语言学进展与应用.北京:清华大学出版社,1995,119-124.
10陆俭明.汉语句法成分特有的套叠现象[M]..陆俭明自选集.郑州:河南教育出版社,1993.174-192.

共引文献54

1王东波.基于规则的单层单标记联合结构自动识别[J].文教资料,2008(9):29-31. 被引量：6
2冯冲,陈肇雄,黄河燕,张亮,王江伟.基于条件随机域的复杂最长名词短语识别[J].小型微型计算机系统,2006,27(6):1134-1139. 被引量：16
3姜韶华,党延忠.无词典中英文混合术语抽取及算法研究[J].情报学报,2006,25(3):301-305. 被引量：2
4钱小飞.“地”字结构识别[J].现代语文（下旬．语言研究）,2006(5):61-63. 被引量：2
5姜韶华,党延忠,宣照国.无词典抽词的RMMFS和BMMFS方法及其比较研究[J].情报学报,2006,25(4):499-503. 被引量：5
6李荣,郑家恒.基于语料库的名词短语识别方法[J].济南大学学报（自然科学版）,2007,21(3):243-245. 被引量：2
7奚建清,罗强.基于HMM的汉语介词短语自动识别研究[J].计算机工程,2007,33(3):172-173. 被引量：9
8代翠,周俏丽,蔡东风,杨洁.统计和规则相结合的汉语最长名词短语自动识别[J].中文信息学报,2008,22(6):110-115. 被引量：16
9钱小飞.最长名词短语识别研究[J].现代语文（下旬．语言研究）,2009(7):124-126. 被引量：2
10苗艳军,李军辉,周国栋.统计和规则相结合的并列结构自动识别[J].计算机应用研究,2009,26(9):3403-3406. 被引量：10

同被引文献62

1栾辉,舒华,张大成.听写任务下儿童汉字输出特点及影响因素的研究[J].心理发展与教育,2001,17(1):1-5. 被引量：15
2干俊伟,黄德根.汉语介词短语的自动识别[J].中文信息学报,2005,19(4):17-23. 被引量：14
3马建军.基于规则和统计的机器翻译方法歧义问题比较分析[J].大连理工大学学报（社会科学版）,2010,31(3):114-119. 被引量：8
4江新.词的复现率和字的复现率对非汉字圈学生双字词学习的影响[J].世界汉语教学,2005,19(4):31-38. 被引量：39
5郭永辉,杨红卫,马芳,王炳锡.基于粗糙集的基本名词短语识别[J].中文信息学报,2006,20(3):14-21. 被引量：2
6吕琳,刘玉树.最大熵和Brill方法结合识别英语BaseNPs[J].北京理工大学学报,2006,26(6):500-503. 被引量：6
7姜柄圭,张秦龙,谌贻荣,常宝宝.面向机器辅助翻译的汉语语块自动抽取研究[J].中文信息学报,2007,21(1):9-16. 被引量：12
8刘华.基于关键短语的文本分类研究[J].中文信息学报,2007,21(4):34-41. 被引量：14
9奚建清,罗强.基于HMM的汉语介词短语自动识别研究[J].计算机工程,2007,33(3):172-173. 被引量：9
10游斓.基于转换的基本名词短语识别[C].复旦大学·政学者论文集,2002:236-245.

引证文献7

1刘颖,季铎,黄海红,蔡东风.规则与统计结合的俄语基本名词短语识别[J].沈阳航空航天大学学报,2014,31(6):66-72.
2孙瑞娜.基于CRFs的哈萨克语名词短语自动获取[J].图书馆理论与实践,2015(8):101-105. 被引量：1
3桑乐园,黄德根.基于简单名词短语的汉语介词短语识别研究[J].中文信息学报,2015,29(6):8-12. 被引量：2
4蔡东风,赵奇猛,饶齐,王裴岩.基于马尔科夫逻辑网的中文专利最大名词短语识别[J].中文信息学报,2016,30(4):21-28. 被引量：2
5马建军,裴家欢,黄德根.CRFs融合语义信息的英语功能名词短语识别[J].中文信息学报,2016,30(6):59-66. 被引量：2
6荣垂田,李银银,王琰.中文关键短语自动提取方法研究[J].计算机科学与探索,2019,13(9):1481-1492. 被引量：3
7侯晓明,孙培健,张婷婷.整体频次和搭配强度在母语和二语多词序列加工中的作用——以汉语双字副词短语为例[J].世界汉语教学,2022,36(2):236-250. 被引量：1

二级引证文献11

1田雪,黄德根.一种混合的汉语简单名词短语识别方法[J].小型微型计算机系统,2017,38(4):749-754. 被引量：1
2刘彤,黄德根,张聪.基于多模型融合的汉语介词短语识别[J].中文信息学报,2017,31(6):25-32.
3张学强,蔡东风,叶娜,吴闯.基于最长名词短语分治策略的神经机器翻译[J].中文信息学报,2018,32(3):42-48. 被引量：7
4李志鹏,王锐,张天驰,徐学晨,梁鹏.基于马尔科夫模型的智能汉字盲文转换系统设计[J].单片机与嵌入式系统应用,2019,19(10):33-36. 被引量：3
5王闻慧.融合边界信息的越南语名词短语深度学习识别方法[J].计算机应用与软件,2019,36(12):169-175.
6唐晓波,谭明亮,李诗轩,顾娜.基于风险短语挖掘的知识聚合模型研究[J].情报理论与实践,2020,43(8):152-158. 被引量：9
7余本功,范招娣.面向自然语言处理的条件随机场模型研究综述[J].信息资源管理学报,2020,10(5):96-111. 被引量：18
8魏胡弋昕,杨苗苗.关于中文模式下三维思维导图的研究[J].电脑编程技巧与维护,2021(9):149-151.
9赵延平,王芳,夏杨.基于支持向量机的短文本分类方法[J].计算机与现代化,2022(2):92-96. 被引量：7
10汤礼欣,周兰江,张力,张建安.融合短语结构的多通道老挝语名词短语识别方法[J].中文信息学报,2022,36(6):61-68.

1李荣.基于隐马尔可夫模型的汉语非嵌套名词短语识别[J].忻州师范学院学报,2004,20(5):122-124. 被引量：1
2张惠春.基于最大熵模型的中文名词短语识别[J].电脑知识与技术（过刊）,2009,15(3X):1928-1930.
3綦艳霞.新颖度——关联规则的评价指标[J].计算机应用研究,2004,21(1):17-19. 被引量：6
4李荣,郑家恒,郭梅英.基于遗传算法的隐马尔可夫模型在名词短语识别中的应用研究[J].计算机科学,2009,36(10):244-246. 被引量：4
5冯冲,陈肇雄,黄河燕,张亮,王江伟.基于条件随机域的复杂最长名词短语识别[J].小型微型计算机系统,2006,27(6):1134-1139. 被引量：16
6姜亚辉,姬东鸿.结合半监督与主动学习的复杂名词短语识别[J].计算机工程与设计,2015,36(2):498-501. 被引量：1
7刘德仿,吴宏攀,王斌,周临震.基于AHP的汽车智能化设计知识评价方法[J].重庆交通大学学报（自然科学版）,2011,30(6):1425-1428. 被引量：1
8顾新建,马步青,代风.基于大数据的知识共享方法研究[J].知识管理论坛,2016(1):30-38. 被引量：3
9綦艳霞,杨炳儒.KDD中知识评价的研究综述[J].计算机应用研究,2001,18(12):1-4. 被引量：13
10孙成柱,徐晓飞,李向阳.基于数据包络分析的虚拟企业知识评价方法[J].计算机工程与应用,2007,43(31):245-248. 被引量：1

中文信息学报

2013年第6期

浏览历史

内容加载中请稍等...

基于混合策略的汉语最长名词短语识别被引量：7

参考文献8

二级参考文献48

共引文献54

同被引文献62

引证文献7

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

基于混合策略的汉语最长名词短语识别 被引量：7

参考文献8

二级参考文献48

共引文献54

同被引文献62

引证文献7

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

基于混合策略的汉语最长名词短语识别被引量：7