利用上下文信息解决汉语自动分词中的组合型歧义被引量：24

Solving Combinatorial Ambiguity in Chinese Word Segmentation Using Contextual Information

下载PDF

导出

摘要组合型歧义切分字段一直是汉语自动分词研究中的一个难点。该文将之视为与WordSenseDisambiguation(WSD)相等价的问题。文章借鉴了WSD研究中广泛使用的向量空间法,选取了20个典型的组合型歧义进行了详尽讨论。提出了根据它们的分布“分而治之”的策略,继而根据实验确定了与特征矩阵相关联的上下文窗口大小、窗口位置区分、权值估计等要素,并且针对数据稀疏问题,利用词的语义代码信息对特征矩阵进行了降维处理,取得了较好的效果。笔者相信,这个模型对组合型歧义切分字段的排歧具有一般性。 Combinatorial ambiguity is a vital issue in Chinese word segmentation.We regard it as an equivalence of the problem of word sense disambiguation(WSD)in language computing.In sight of the vector space model commonly used in WSD and based on detailed observations on 20 typical combinatorial ambiguities,this paper at first presents the strategy of treating these ambiguities separately according to their distribution,then determines by experiments the key factors regarding feature matrix(the size of the context window,the sensitivity of locations in the window as well as weighting of feature words),and lastly makes use of semantic codes of words so as to reduce the dimension of the feature matrix.Preliminary results show that the proposed scheme is satisfactory in performance and may serve as a general solution for processing combinatorial ambiguities.

作者肖云孙茂松邹嘉彦

机构地区清华大学智能技术与系统国家重点实验室香港城市大学语言资讯科学研究中心

出处《计算机工程与应用》 CSCD 北大核心 2001年第19期87-89,106,共4页 Computer Engineering and Applications

基金国家重点基础研究发展规划项目资助课题(课题编号:G1998030507)

关键词自然语言处理中文计算汉语自动分词组合型歧义切分字段中文信息处理 natural language processing,Chinese computing,Chinese word segmentation,Combinatorial ambiguity

分类号 TP391.12 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1孙茂松,左正平,黄昌宁.消解中文三字长交集型分词歧义的算法[J].清华大学学报（自然科学版）,1999,39(5):101-103. 被引量：22
2梅家驹,竺一鸣,高蕴琦,殷鸿翔.编纂汉语类义词典的尝试——《同义词词林》简介[J].辞书研究,1983(1):133-138. 被引量：15
3孙茂松,左正平,邹嘉彦.高频最大交集型歧义切分字段在汉语自动分词中的作用[J].中文信息学报,1999,13(1):27-34. 被引量：51
4孙茂松,黄昌宁,邹嘉彦,陆方,沈达阳.利用汉字二元语法关系解决汉语自动分词中的交集型歧义[J].计算机研究与发展,1997,34(5):332-339. 被引量：66

二级参考文献12

1刘开瑛.现代汉语自动分词评测技术研究[J].语言文字应用,1997(1):103-108. 被引量：15
2孙茂松邹嘉彦等.汉语真实文本中的交集型切歧义.汉语计量与计算研究[M].香港城市大学语言资讯科学研究中心,1998..
3Lai B Y，Proc of ROCLING-IV，1991年
4Zhang J S，Proc of ROCLING-IV，1991年
5王晓龙，科学通报，1989年，13页
6梁南元，中文信息学报，1987年，1期
7冯志伟，数理语言学，1985年
8孙茂松，汉语计量与计算研究，1998年
9刘开瑛，语言文字应用，1997年，1期
10Sun Maosong，Proc 5th Conf Applied Natural Language Processing，1997年

共引文献130

1张恒,杨文昭,屈景辉,卢虹冰,张亮,赵飞.基于词典和词频的中文分词方法[J].微计算机信息,2008,24(3):239-240. 被引量：19
2曹娟,周经野.一种计算汉字串之间相关程度的新方法[J].中文信息学报,2004,18(4):55-59. 被引量：6
3肖升,胡金柱,姚双云,吴锋文.关系词搭配的联列分析[J].宁夏大学学报（人文社会科学版）,2009,31(6):75-79. 被引量：2
4许桢.基于语义网的文本分类系统设计与实现[J].硅谷,2009,2(18).
5曹倩,丁艳,王超,潘金贵.汉语自动分词研究及其在信息检索中的应用[J].计算机应用研究,2004,21(5):71-74. 被引量：18
6宋婧婧,苏新春.类义词典中的两种类型:“同义”与“同类”──《同义词词林》与《朗文多功能分类词典》比较[J].辞书研究,2004(4):89-97. 被引量：4
7张素娟,郑庆华,胡云华,孙霞.一种面向网络答疑的汉语切分歧义消除算法[J].计算机工程与应用,2004,40(25):55-58. 被引量：4
8苏菲,王丹力,戴国忠.基于标记的规则统计模型与未登录词识别算法[J].计算机工程与应用,2004,40(15):43-45. 被引量：13
9孙茂松,肖明,邹嘉彦.基于无指导学习策略的无词表条件下的汉语自动分词[J].计算机学报,2004,27(6):736-742. 被引量：37
10冯志伟.汉字和汉语的计算机处理[J].当代语言学,2001,3(1):1-21. 被引量：23

同被引文献147

1张恒,杨文昭,屈景辉,卢虹冰,张亮,赵飞.基于词典和词频的中文分词方法[J].微计算机信息,2008,24(3):239-240. 被引量：19
2周榕,黄希庭.中英文时间表征的对比探析[J].西南师范大学学报（哲学社会科学版）,1999,31(1):70-75. 被引量：11
3孙茂松,邹嘉彦.汉语自动分词研究中的苦干理论问题[J].语言文字应用,1995(4):40-46. 被引量：45
4张云秋.汉语短语的分类问题[J].语文研究,1994(4):35-41. 被引量：3
5文庭孝,邱均平,侯经川.汉语自动分词研究展望[J].现代图书情报技术,2004(7):6-10. 被引量：20
6张素娟,郑庆华,胡云华,孙霞.一种面向网络答疑的汉语切分歧义消除算法[J].计算机工程与应用,2004,40(25):55-58. 被引量：4
7苏菲,王丹力,戴国忠.基于标记的规则统计模型与未登录词识别算法[J].计算机工程与应用,2004,40(15):43-45. 被引量：13
8刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：198
9李凯,左万利,吕巍.汉语文本中交集型切分歧义的分类处理[J].小型微型计算机系统,2004,25(8):1486-1490. 被引量：3
10孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：101

引证文献24

1张素娟,郑庆华,胡云华,孙霞.一种面向网络答疑的汉语切分歧义消除算法[J].计算机工程与应用,2004,40(25):55-58. 被引量：4
2刘江,郑家恒,张虎.中文文本语料库分词一致性检验技术的初探[J].计算机应用研究,2005,22(9):52-54. 被引量：10
3代建英,何中市.基于词性信息的汉语时间语词消歧算法[J].重庆大学学报（自然科学版）,2005,28(9):53-56.
4侯济恭.公路收费站远程监控与冲关稽查系统[J].计算机系统应用,2006,15(5):10-14. 被引量：2
5张培颖,李村合.一种改进的上下文相关的歧义字段切分算法[J].计算机系统应用,2006,15(5):46-48. 被引量：6
6曲维光,吉根林,穗志方,周俊生.基于语境信息的组合型分词歧义消解方法[J].计算机工程,2006,32(17):74-76. 被引量：10
7冯素琴,陈惠明.利用上下文信息解决汉语组合型歧义[J].电脑开发与应用,2007,20(1):23-25. 被引量：1
8秦颖,王小捷,张素香.汉语分词中组合歧义字段的研究[J].中文信息学报,2007,21(1):3-8. 被引量：11
9冯素琴,陈惠明.一种自组织的汉语组合型歧义消歧方法[J].计算机工程与设计,2007,28(3):737-739. 被引量：3
10郑家恒,张剑锋,谭红叶.中文分词中歧义切分处理策略[J].山西大学学报（自然科学版）,2007,30(2):163-167. 被引量：10

二级引证文献71

1唐琳,郭崇慧,陈静锋.中文分词技术研究综述[J].数据分析与知识发现,2020,4(2):1-17. 被引量：44
2丁洁.基于Lucene的中文分词系统设计与实现[J].自动化与仪器仪表,2016(5):208-210. 被引量：5
3孙霞,郑庆华.教育资源元数据语义扩展查找方法的研究[J].计算机研究与发展,2004,41(12):2170-2174. 被引量：9
4谈文蓉,杨宪泽,刘莉.汉语自动排歧方法研究[J].西南民族大学学报（自然科学版）,2005,31(6):971-976. 被引量：1
5赵磊,余建桥,金良锋,卢志俊.福利企业远程指纹税控系统的设计与实现[J].计算机系统应用,2007,16(11):2-5. 被引量：1
6庞敏,杨进才,刘家武.动物信息平台物种类别树形关系的一致性实现[J].计算机与数字工程,2007,35(11):44-46.
7冯素琴,陈惠明.基于语境信息的汉语组合型歧义消歧方法[J].中文信息学报,2007,21(6):13-16. 被引量：7
8余希田,李丹亚,胡铁军.汉语自动分词歧义处理研究[J].医学信息学杂志,2007,28(6):541-544.
9卢俊之.分词不一致不同成因的自动识别研究[J].现代语文（下旬．语言研究）,2007(11):87-88. 被引量：1
10李知兵,李龙澍.基于数据驱动的中文分词方法研究[J].现代计算机,2007,13(12):8-10. 被引量：1

1冯素琴,陈惠明.一种自组织的汉语组合型歧义消歧方法[J].计算机工程与设计,2007,28(3):737-739. 被引量：3
2第二届自然语言处理与中文计算会议(NLP&CC2013)[J].计算机工程与科学,2013,35(10):35-35.
3第二届自然语言处理与中文计算会议通知[J].计算机应用,2013,33(10).
4第二届自然语言处理与中文计算会议通知[J].计算机工程与设计,2013,34(10).
5第一届自然语言处理与中文计算会议(NLP&CC 2012)征文通知[J].计算机应用,2012,32(4).
6CCF自然语言处理与中文计算会议(NLP＆CC2012)简介[J].北京大学学报（自然科学版）,2013,49(1):170-170.
7第一届自然语言处理与中文计算会议(NLP&CC 2012)征文通知[J].计算机应用,2012,32(5).
8第三届自然语言处理与中文计算会议(NLPCC 2014)会议通知[J].计算机应用,2014,34(11).
9第三届自然语言处理与中文计算会议（NLPCC2014）会议通知[J].计算机应用,2014,34(10).
10第二届自然语言处理与中文计算会议(NLP&CC2013)会议通知[J].计算机应用研究,2013,30(10).

计算机工程与应用

2001年第19期

浏览历史

内容加载中请稍等...

利用上下文信息解决汉语自动分词中的组合型歧义被引量：24

参考文献4

二级参考文献12

共引文献130

同被引文献147

引证文献24

二级引证文献71

相关作者

相关机构

相关主题

浏览历史

利用上下文信息解决汉语自动分词中的组合型歧义 被引量：24

参考文献4

二级参考文献12

共引文献130

同被引文献147

引证文献24

二级引证文献71

相关作者

相关机构

相关主题

浏览历史

利用上下文信息解决汉语自动分词中的组合型歧义被引量：24