汉语句子的组块分析体系被引量：31

CHUNK PARSING SCHEME FOR CHINESE SENTENCES

下载PDF

导出

摘要介绍了一种描述能力介于线性词序列和完整句法树表示之间的浅层句法知识描述体系——组块分析体系，并详细讨论了其中两大部分：词界块和成分组的基本内容及其自动识别算法．在此基础上，提出了一种分阶段构造汉语树库的新设想，即先构造组块库，再构造树库，进行了一系列句法分析和知识获取实验，包括１）自动识别汉语最长名词短语；２）自动获取汉语句法知识等．所有这些工作都证明了这种知识描述体系的实用性和有效性． This paper proposed the chunk parsing scheme , a shallow syntactic knowledge representation system with the descriptive ability between part of speech serial and parse tree representation, and discussed some basic concepts and automatic identification algorithms for its two main parts: word boundary stems and constituent groups. Based on this scheme, this paper also proposed a new treebank annotation strategy, i.e. from chunk bank to treebank, and carried out several syntactic parsing and knowledge acquisition experiments, such as 1) the automatic identification of Chinese maximal noun phrases, 2) the automatic acquisition of Chinese probabilistic context free grammar knowledge. All these work shows its usefulness and efficiency for natural language processing research and development.

作者周强孙茂松黄昌宁

机构地区清华大学计算机科学与技术系清华大学智能技术与系统国家重点实验室

出处《计算机学报》 EI CSCD 北大核心 1999年第11期1158-1165,共8页 Chinese Journal of Computers

基金国家自然科学基金中国博士后科学基金

关键词句法分析自然语言处理汉语句子组块分析体系 Word boundary stem, constituent group, partial parsing, syntactic parsing.

分类号 TP391.41 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献10

1周强,黄昌宁.汉语概率型上下文无关语法的自动推导[J].计算机学报,1998,21(5):385-392. 被引量：7
2周强,俞士汶.汉语短语标注标记集的确定[J].中文信息学报,1996,10(4):1-11. 被引量：35
3周强，智能技术与系统国家重点实验室技术报告（TR98003），1998年
4Zhou Qiang，Proc 5th Workshop on Very Large Corpora，1997年，4页
5Zhou Qiang，Communications COLIPS，1997年，7卷，2期，53页
6周强，中文信息学报，1997年，11卷，4期，1页
7周强，软件学报，1996年，7卷，增刊，315页
8周强，博士学位论文，1996年
9Shih H H，Computer Speech Language，1995年，9卷，3期，235页
10吴竞存，现代汉语句法结构与分析，1992年

二级参考文献15

1周明,黄昌宁.面向语料库标注的汉语依存体系的探讨[J].中文信息学报,1994,8(3):35-52. 被引量：40
2周强,俞士汶.汉语短语标注标记集的确定[J].中文信息学报,1996,10(4):1-11. 被引量：35
3周强，计算机研究与运用，1993年
4李子云，汉语句法规则，1992年
5房玉清，实用汉语语法，1992年
6吴竞存，现代汉语句法结构与分析，1992年
7范晓，汉语的短语，1991年
8团体著者，世界汉语教学，1989年，1期
9朱德熙，语法答问，1985年
10周强，智能技术与系统国家重点实验室:技术报告TR-97001，1997年

共引文献39

1尹一瓴,陈群秀.现代汉语语义知识库用于句法分析的研究[J].计算机应用,2004,24(B12):264-267. 被引量：1
2詹卫东.80年代以来汉语信息处理研究述评──作为现代汉语语法研究的应用背景之一[J].当代语言学,2000,2(2):63-73. 被引量：13
3才让加,吉太加.藏语语料库的词性分类方法研究[J].青海师范大学学报（哲学社会科学版）,2005,27(4):112-114. 被引量：5
4才让加,吉太加.基于藏语语料库的词类分类方法研究[J].西北民族大学学报（自然科学版）,2005,26(2):39-42. 被引量：5
5扎洛.语言信息处理的现代藏语词性分类方法研究[J].青海师范大学学报（自然科学版）,2006,22(1):38-41.
6饶弋宁,刘强,杜晓黎,叶蓬.支持智能搜索的自扩展知识库模型的研究和设计[J].计算机应用研究,2006,23(6):223-226. 被引量：4
7朱小娟,陈特放.词频统计中文分词技术的研究[J].仪器仪表用户,2007,14(3):78-79. 被引量：6
8刘华.汉语信息处理中短语优势的理据及实验证明[J].语言文字应用,2007(4):129-135. 被引量：3
9程节华,段汉根.汉语短语识别方法研究[J].计算机技术与发展,2008,18(4):67-69. 被引量：1
10周强,张伟,俞士汶.汉语树库的构建[J].中文信息学报,1997,11(4):42-51. 被引量：32

同被引文献284

1周强.汉语句法树库标注体系[J].中文信息学报,2004,18(4):1-8. 被引量：90
2李宏乔,樊孝忠.汉语文本中特殊符号串的自动识别技术[J].计算机工程,2004,30(12):114-115. 被引量：2
3程葳,赵军,刘非凡,徐波.面向口语翻译的双语语块自动识别[J].计算机学报,2004,27(8):1016-1020. 被引量：3
4董振东,董强.知网和汉语研究[J].当代语言学,2001,3(1):33-44. 被引量：57
5祁坤钰.《机器翻译用现代藏语语义词典》的设计研究[J].西北民族大学学报（自然科学版）,2004,25(3):33-37. 被引量：8
6梁颖红,赵铁军,岳琪.英语基本名词短语识别技术研究[J].信息技术,2004,28(12):22-24. 被引量：4
7孙宏林,俞士汶.浅层句法分析方法概述[J].当代语言学,2000,2(2):74-83. 被引量：38
8缪海燕,孙蓝.非词汇化高频动词搭配的组块效应——一项基于语料库的研究[J].解放军外国语学院学报,2005,28(3):40-44. 被引量：90
9刘世岳,李珩,张俐,姚天顺.Co-training机器学习方法在中文组块识别中的应用[J].中文信息学报,2005,19(3):73-79. 被引量：8
10王立霞,孙宏林.现代汉语介词短语边界识别研究[J].中文信息学报,2005,19(3):80-86. 被引量：11

引证文献31

1程葳,赵军,刘非凡,徐波.面向口语翻译的双语语块自动识别[J].计算机学报,2004,27(8):1016-1020. 被引量：3
2谭咏梅,姚天顺,陈晴,李珩,朱靖波.基于SVM+Sigmoid的汉语组块识别[J].计算机科学,2004,31(8):142-146. 被引量：3
3干俊伟,黄德根.汉语介词短语的自动识别[J].中文信息学报,2005,19(4):17-23. 被引量：14
4余正涛,樊孝忠.基于最大熵模型的汉语问句语义组块分析[J].计算机工程,2005,31(17):3-5. 被引量：5
5李玉鑑.英汉翻译模板的标准化方案及其应用[J].中文信息学报,2006,20(B03):41-46.
6林煜明,李优.基于SVM的句子组块识别[J].山东大学学报（理学版）,2006,41(3):33-36.
7张运良.语义块的多元逻辑组合构成研究[J].计算机应用研究,2006,23(11):15-18.
8毛奇,连乐新,周文翠,袁春风.基于标点符号分割的汉语句法分析算法[J].中文信息学报,2007,21(2):29-34. 被引量：7
9谭咏梅,王小捷,周延泉,钟义信.使用SVMs进行汉语浅层分析[J].北京邮电大学学报,2008,31(1):5-8. 被引量：1
10吴柳燕,覃纪武.基于内容的文本模糊检索技术研究[J].情报杂志,2008,27(5):121-124.

二级引证文献193

1程葳,赵军,刘非凡,徐波.面向口语翻译的双语语块自动识别[J].计算机学报,2004,27(8):1016-1020. 被引量：3
2李剑锋,胡国平,王仁华.基于最大熵模型的韵律短语边界预测[J].中文信息学报,2004,18(5):56-63. 被引量：20
3陈晓明,周渝.汉语部分句法分析的研究和发展趋势[J].贵州大学学报（自然科学版）,2004,21(4):384-386. 被引量：2
4胡国全,陈家骏,戴新宇,尹存燕.一种基于实例的汉英机器翻译策略[J].计算机工程与设计,2005,26(4):900-903. 被引量：5
5干俊伟,黄德根.汉语介词短语的自动识别[J].中文信息学报,2005,19(4):17-23. 被引量：14
6王建会,王雷,胡运发.词语间依存关系的定量识别[J].中文信息学报,2005,19(4):31-38. 被引量：3
7冯丽萍,焦莉娟.基于最大熵的中文组织机构名识别模型[J].计算机与数字工程,2010,38(12):36-40. 被引量：2
8余正涛,樊孝忠.基于最大熵模型的汉语问句语义组块分析[J].计算机工程,2005,31(17):3-5. 被引量：5
9冯冲,陈肇雄,黄河燕,王江伟.最大熵模型的树-栅格最优N解码算法[J].计算机科学,2005,32(10):167-169. 被引量：1
10刘冬明,杨尔弘,方莹.汉英双语平行语料库的词义标注[J].中文信息学报,2005,19(6):50-56. 被引量：4

1秦伟,孟庆春,李默.基于ARM处理器的数据采集系统的设计[J].自动化技术与应用,2006,25(10):63-65. 被引量：12
2刘洋,毕玉德,李健.基于句法知识的复句解构对韩汉复句机器翻译改进刍议[J].洛阳师范学院学报,2017,36(2):49-54. 被引量：4
3杨超.双向AC算法及其在入侵检测系统中应用[J].计算机系统应用,2011,20(3):222-225. 被引量：6
4董佩嘉.Symbian异常处理及预防研究[J].电脑知识与技术（过刊）,2007(2):420-421. 被引量：1
5钟诗胜,王国磊,林琳.主件网络图与部套制造树之间的映射关系研究[J].计算机集成制造系统,2008,14(8):1596-1602.
6高楠.基于Symbian OS的内存管理策略[J].电脑知识与技术,2010,6(8):6215-6216.
7常雪琴,张道华.一种新的无线传感器网络非均匀分簇算法[J].吉林大学学报（理学版）,2016,54(6):1388-1394. 被引量：4
8张春祥,栾博,高雪瑶,卢志茂.基于句法分析的汉语词义消歧[J].计算机应用研究,2014,31(1):40-42. 被引量：3
9杨光正.句法知识系统的推理方法[J].自动化学报,1993,19(5):625-628.
10邱立坤,金澎,王厚峰.基于依存语法构建多视图汉语树库[J].中文信息学报,2015,29(3):9-15. 被引量：10

计算机学报

1999年第11期

浏览历史

内容加载中请稍等...

汉语句子的组块分析体系被引量：31

参考文献10

二级参考文献15

共引文献39

同被引文献284

引证文献31

二级引证文献193

相关作者

相关机构

相关主题

浏览历史

汉语句子的组块分析体系 被引量：31

参考文献10

二级参考文献15

共引文献39

同被引文献284

引证文献31

二级引证文献193

相关作者

相关机构

相关主题

浏览历史

汉语句子的组块分析体系被引量：31