统计和规则相结合的汉语组块分析被引量：21

CHINESE CHUNKING PARSING USING RULE-BASED AND STATISTICS-BASED METHODS

下载PDF

导出

摘要从文本中获得的组块对机器翻译、信息检索等很多领域都非常有用．介绍了规则和统计进行组块分析的处理策略，提出了规则与统计相结合的处理方法．并且结合组块分析的实际情况改进了一般评价系统性能的指标，通过封闭测试和开放测试验证，与单纯规则组块划分相比较，组块识别的精确率和召回率都得到了提高，组块划分错误率降低了７％． To acquire chunks from running texts is useful for many applications, such as machine translation, information retrieving, etc.. Described in this paper are the schemes of rule-based chunker and statistics-based chunker. Also proposed is a method to combine rule-based processing with statistics-based processing. According to the practical situation the mistake recall is introduced to rate the performance of the system. Compared with the rule-based system, the precision and recall are enhanced to identify chunks, and the error rate is reduced about 7%. The performance of the whole system has been improved greatly.

作者李素建刘群白硕

机构地区中国科学院计算技术研究所

出处《计算机研究与发展》 EI CSCD 北大核心 2002年第4期385-391,共7页 Journal of Computer Research and Development

基金国家"九七三"重点基础研究项目基金资助(G1998030507-4)

关键词统计规则汉语组块分析语料库自然语言处理计算机 chunk parsing, partial parsing, corpus

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1周强.规则和统计相结合的汉语词类标注方法[J].中文信息学报,1995,9(3):1-10. 被引量：43
2赵军,黄昌宁.基于转换的汉语基本名词短语识别模型[J].中文信息学报,1999,13(2):1-7. 被引量：41
3周强,孙茂松,黄昌宁.汉语最长名词短语的自动识别[J].软件学报,2000,11(2):195-201. 被引量：37
4孙宏林.从标注语料库中姨纳语法规则：“V+N”序列试验分析.语言工程[M].北京:清华大学出版社,1997.157-163.

二级参考文献12

1张卫国.三种定语、三类意义及三个槽位[J].中国人民大学学报,1996,(4):97-100.
2俞士汶，1994年
3周强，计算机研究与运用，1993年
4白栓虎，1992年
5刘开瑛，1992年
6俞士汶，1991年
7减怀德，形容词用法词典，1991年
8孟琮，动词用法词典，1985年
9朱德熙，语法答问，1985年
10张卫国，中国人民大学学报，1996年，4期，97页

共引文献110

1王东波.基于规则的单层单标记联合结构自动识别[J].文教资料,2008(9):29-31. 被引量：6
2曹娟,周经野.一种计算汉字串之间相关程度的新方法[J].中文信息学报,2004,18(4):55-59. 被引量：6
3王朝静,郑庆华.面向答疑文本的词类标注方法的研究与实现[J].计算机工程与应用,2004,40(16):57-60. 被引量：2
4于津凯,王映雪,陈怀楚.一种基于N-Gram改进的文本特征提取算法[J].图书情报工作,2004,48(8):48-50. 被引量：17
5刘壁松,李春平.一个可扩展的文本分类系统的设计与实现[J].计算机工程与应用,2004,40(30):102-106. 被引量：2
6李荣.基于隐马尔可夫模型的汉语非嵌套名词短语识别[J].忻州师范学院学报,2004,20(5):122-124. 被引量：1
7陈晓明,周渝.汉语部分句法分析的研究和发展趋势[J].贵州大学学报（自然科学版）,2004,21(4):384-386. 被引量：2
8梁颖红,赵铁军,姚建民,于浩,徐冰.基于混合策略的英语基本名词短语识别——边界统计和词性串规则校正相结合的策略[J].计算机工程与应用,2004,40(35):1-3. 被引量：2
9孙宏林,俞士汶.浅层句法分析方法概述[J].当代语言学,2000,2(2):74-83. 被引量：38
10张锋,许云,侯艳,樊孝忠.基于互信息的中文术语抽取系统[J].计算机应用研究,2005,22(5):72-73. 被引量：36

同被引文献283

1王建勇,谢正茂,雷鸣,李晓明.近似镜像网页检测算法的研究与评价[J].电子学报,2000,28(z1):130-132. 被引量：21
2周强.汉语句法树库标注体系[J].中文信息学报,2004,18(4):1-8. 被引量：90
3俞士汶.语法知识在语言信息处理研究中的作用[J].语言文字应用,1997(4):82-88. 被引量：17
4胡明扬.动名兼类的计量考察[J].语言研究,1995,15(2):91-99. 被引量：26
5邢福义.小句中枢说[J].中国语文,1995(6):420-428. 被引量：158
6冯胜利.论汉语的“韵律词”[J].中国社会科学,1996(1):161-176. 被引量：259
7陆俭明.关于句处理中所要考虑的语义问题[J].语言研究,2001,21(1):1-12. 被引量：24
8刘运同.词汇短语的范围和分类[J].湖北社会科学,2004(9):90-92. 被引量：7
9程葳,赵军,刘非凡,徐波.面向口语翻译的双语语块自动识别[J].计算机学报,2004,27(8):1016-1020. 被引量：3
10孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：101

引证文献21

1刘云,俞士汶.“句管控”与中文信息处理[J].汉语学报,2004(2):56-62. 被引量：5
2张运良.语义块的多元逻辑组合构成研究[J].计算机应用研究,2006,23(11):15-18.
3樊勇,郑家恒.基于主题的网页去重[J].电脑开发与应用,2008,21(4):4-6. 被引量：2
4何亮,戴新宇,周俊生,陈家骏.中心词驱动的汉语统计句法分析模型的改进[J].中文信息学报,2008,22(4):3-9. 被引量：3
5付禾芳,李朝霞.介词短语识别中规则与统计方法融合的探讨[J].现代计算机,2010,16(11):17-20. 被引量：1
6杨玉珍,刘培玉,姜沛佩.向量空间模型中结合句法的文本表示研究[J].计算机工程,2011,37(3):58-60. 被引量：6
7徐金安.理性主义与经验主义相结合的机器翻译研究策略[J].计算机科学,2011,38(6):223-229. 被引量：5
8孔令鹏,张琛,张权.基于SVM的快速中文组块分析方法[J].现代电子技术,2012,35(21):93-96. 被引量：1
9闫国利,张兰兰,孙莎莎,白学军,张兰兰,孙莎莎.汉语“主观词”的表征及其加工[J].心理学报,2013,45(4):379-390. 被引量：8
10李业刚,黄河燕.汉语组块分析研究综述[J].中文信息学报,2013,27(3):1-8. 被引量：12

二级引证文献109

1吴勇毅.汉语作为第二语言/外语教学法研究四十年之拾穗[J].国际汉语教育（中英文）,2018,0(4):47-62. 被引量：10
2徐杰.词组与小句之间的差异及其蕴含的理论意义[J].汉语学报,2005(3):51-64. 被引量：23
3姚双云.小句中枢理论的应用与复句信息工程[J].汉语学报,2005(4):71-79. 被引量：17
4王胜,朱明.基于最大熵马尔可夫模型的地址信息抽取[J].计算机工程与应用,2005,41(21):192-194. 被引量：8
5余正涛,樊孝忠.基于最大熵模型的汉语问句语义组块分析[J].计算机工程,2005,31(17):3-5. 被引量：5
6戴文华,焦翠珍,徐斌.基于统计的自然语言处理模型[J].咸宁学院学报,2005,25(3):79-82. 被引量：3
7吕琳,刘玉树.最大熵和Brill方法结合识别英语BaseNPs[J].北京理工大学学报,2006,26(6):500-503. 被引量：6
8徐建军,吴玲达,司光亚,张昱,谢毓湘.战略态势叙事性表现技术研究[J].系统仿真学报,2007,19(11):2500-2502. 被引量：3
9于江德,樊孝忠,尹继豪.隐马尔可夫模型在自然语言处理中的应用[J].计算机工程与设计,2007,28(22):5514-5516. 被引量：14
10洪鹿平,张霄军.面向信息处理的汉语复句研究[J].现代语文（下旬．语言研究）,2008(3):77-78.

1刘芳,赵铁军,于浩,杨沐昀,方高林.基于统计的汉语组块分析[J].中文信息学报,2000,14(6):28-32. 被引量：27
2李业刚,黄河燕.汉语组块分析研究综述[J].中文信息学报,2013,27(3):1-8. 被引量：12
3杜思奇,李红莲,吕学强.汉语组块分析在情感分类中的应用研究[J].计算机应用与软件,2016,33(10):167-171.
4舒鑫柱,杨尔弘.基于HOWNET的汉语组块分析[J].河南职业技术师范学院学报,2001,29(4):59-61. 被引量：1
5周俏丽,刘新,郎文静,蔡东风.基于分治策略的组块分析[J].中文信息学报,2012,26(5):120-128. 被引量：6
6周俊生,戴新宇,陈家骏,曲维光.基于大间隔方法的汉语组块分析[J].软件学报,2009,20(4):870-877. 被引量：7
7宋静.支持向量机的应用研究[J].电脑知识与技术,2012,8(11X):8060-8062. 被引量：2
8杜思奇,李红莲,吕学强.汉语组块分析在产品特征提取中的应用研究[J].现代图书情报技术,2015(9):26-30. 被引量：4
9石翠.依存句法分析研究综述[J].智能计算机与应用,2013,3(6):47-49. 被引量：6
10黄德根,张丽静,张艳丽,杨元生.规则与统计相结合的兼类词处理机制[J].小型微型计算机系统,2003,24(7):1252-1255. 被引量：6

计算机研究与发展

2002年第4期

浏览历史

内容加载中请稍等...

统计和规则相结合的汉语组块分析被引量：21

参考文献4

二级参考文献12

共引文献110

同被引文献283

引证文献21

二级引证文献109

相关作者

相关机构

相关主题

浏览历史

统计和规则相结合的汉语组块分析 被引量：21

参考文献4

二级参考文献12

共引文献110

同被引文献283

引证文献21

二级引证文献109

相关作者

相关机构

相关主题

浏览历史

统计和规则相结合的汉语组块分析被引量：21