基于N-最短路径方法的中文词语粗分模型被引量：99

Model of Chinese Words Rough Segmentation Based on N-Shortest-Paths Method

下载PDF

导出

摘要预处理过程的词语粗切分,是整个中文词语分析的基础环节,对最终的召回率、准确率、运行效率起着重要的作用。词语粗分必须能为后续的过程提供少量的、高召回率的、中间结果。本文提出了一种基于N-最短路径方法的粗分模型,旨在兼顾高召回率和高效率。在此基础上,引入了词频的统计数据,对原有模型进行改进,建立了更实用的统计模型。针对人民日报一个月的语料库（共计185,192个句子）,作者进行了粗分实验。按句子进行统计,2-最短路径非统计粗分模型的召回率为99.73％;在10-最短路径统计粗分模型中,平均6.12个粗分结果得到的召回率高达99.94％,比最大匹配方法高出15％,比以前最好的切词方法至少高出6.4％。而粗分结果数的平均值较全切分减少了64倍。实验结果表明:N-最短路径方法是一种预处理过程中实用、有效的的词语粗分手段。 As the very first step of Chinese word segmentation,rough segmentation tries to cover the correct segmentation with as few candidates as possible. This paper presents a model of rough segmentation, which is based on the N-shortest-paths method,to achieve the goal. In parallel,a statistical model can easily be obtained by attaching frequencies to the edges of the word-graphs. Experiments have been made on a one-month news corpus of 185,192 sentences from the People s Daily. By sentence,the recalling rate of the non-statistical model based on 2-shortest-paths method is 99.73 % . When the statistical model is applied, a recalling rate as high as 99. 94 % , nearly 6.4% higher than known best approach and 15% higher than the maximum matching segmentation, can be reached with 6.12 candidates on average. In addition, the average number of segmentation candidates is reduced by 64 times as compared to the approach of full segmentation. The result shows that the N-shortest-paths method is effective for the task of rough segmentation.

作者张华平刘群

机构地区中国科学院计算技术研究所软件实验室

出处《中文信息学报》 CSCD 北大核心 2002年第5期1-7,共7页 Journal of Chinese Information Processing

基金国家重点基础研究项目(G1998030507-4 G1998030510).

关键词 N-最短路径方法中文词语粗分模型中文词语分析预处理统计模型中文信息处理 N-shortest paths method words rough segmentation Chinese lexical analysis

分类号 TP391.12 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献1

1周强.规则和统计相结合的汉语词类标注方法[J].中文信息学报,1995,9(3):1-10. 被引量：43

二级参考文献8

1俞士汶，1994年
2周强，计算机研究与运用，1993年
3白栓虎，1992年
4刘开瑛，1992年
5俞士汶，1991年
6减怀德，形容词用法词典，1991年
7孟琮，动词用法词典，1985年
8朱德熙，语法答问，1985年

共引文献42

1曹娟,周经野.一种计算汉字串之间相关程度的新方法[J].中文信息学报,2004,18(4):55-59. 被引量：6
2王朝静,郑庆华.面向答疑文本的词类标注方法的研究与实现[J].计算机工程与应用,2004,40(16):57-60. 被引量：2
3于津凯,王映雪,陈怀楚.一种基于N-Gram改进的文本特征提取算法[J].图书情报工作,2004,48(8):48-50. 被引量：17
4刘壁松,李春平.一个可扩展的文本分类系统的设计与实现[J].计算机工程与应用,2004,40(30):102-106. 被引量：2
5梁以敏,黄德根.基于完全二阶隐马尔可夫模型的汉语词性标注[J].计算机工程,2005,31(10):177-179. 被引量：25
6王朔.神经网络与规则相结合的词类标注方法[J].天津理工大学学报,2005,21(2):86-88. 被引量：1
7李朝虹,陆建湖.现代汉语自动分析研究现状综述[J].广西教育学院学报,2003(1):112-116. 被引量：1
8蔡勇智.基于最大匹配分词算法的中文词语粗分模型[J].福建电脑,2005,21(9):39-40. 被引量：2
9阿依克孜.卡德尔,开沙尔.卡德尔,吐尔根.依布拉音.面向自然语言信息处理的维吾尔语名词形态分析研究[J].中文信息学报,2006,20(3):43-48. 被引量：23
10刘伟权,王明会,钟义信.应用两种神经网络模型自动标注汉语词类[J].北京邮电大学学报,1997,20(2):42-48. 被引量：2

同被引文献540

1张恒,杨文昭,屈景辉,卢虹冰,张亮,赵飞.基于词典和词频的中文分词方法[J].微计算机信息,2008,24(3):239-240. 被引量：19
2胡涛,路红英.基于Nutch的搜索引擎的研究[J].计算机时代,2007(1):57-59. 被引量：16
3赵艳杰.数据挖掘方法在入侵检测系统中的应用[J].潍坊学院学报,2008,8(2):19-22. 被引量：2
4庄东,陈英.基于加权近似支持向量机的文本分类[J].清华大学学报（自然科学版）,2005,45(S1):1787-1790. 被引量：16
5苏成.基于数据挖掘的入侵检测技术综述[J].信息网络安全,2008(3):60-61. 被引量：2
6陈小荷.自动分词中未登录词问题的一揽子解决方案[J].语言文字应用,1999(3):103-109. 被引量：26
7苑春法,黄昌宁.基于语素数据库的汉语语素及构词研究[J].语言文字应用,1998(3):86-91. 被引量：48
8商务印书馆今年计划出版的哲学译著[J].哲学研究,1959(2):47-47. 被引量：285
9黄昌宁.中文信息处理中的分词问题[J].语言文字应用,1997(1):74-80. 被引量：83
10孙茂松,邹嘉彦.汉语自动分词研究中的苦干理论问题[J].语言文字应用,1995(4):40-46. 被引量：45

引证文献99

1战疆,冯月利,王珊.PostgreSQL中文全文索引技术研究与实现[J].华中科技大学学报（自然科学版）,2005,33(z1):213-216. 被引量：3
2隋丽萍,徐承韬,李瑞芳.一个中文全文检索系统的设计与实现[J].科技资讯,2007,5(18):244-245. 被引量：1
3张素娟,郑庆华,胡云华,孙霞.一种面向网络答疑的汉语切分歧义消除算法[J].计算机工程与应用,2004,40(25):55-58. 被引量：4
4王朝静,郑庆华.面向答疑文本的词类标注方法的研究与实现[J].计算机工程与应用,2004,40(16):57-60. 被引量：2
5刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：198
6李文翔,晏蒲柳,夏德麟,张滨.基于差异相似矩阵算法的词语用法知识发现[J].计算机应用与软件,2005,22(1):90-92.
7刘新斌,李俊.一种基于N-gram组合的中文垃圾邮件过滤方法[J].微电子学与计算机,2004,21(12):85-91. 被引量：5
8黄建中,王肖雷.Katz平滑算法在中文分词系统中的应用[J].计算机工程,2004,30(B12):371-372. 被引量：5
9夏天,樊孝忠,刘林.利用JNI实现ICTCLAS系统的Java调用[J].计算机应用,2004,24(B12):177-178. 被引量：24
10刘群,张浩,白硕.自然语言处理开放资源平台[J].语言文字应用,2002(4):50-56. 被引量：9

二级引证文献846

1刘苗苗,李燕,王欣萌,甘琳琳,李虹.分级阅读初探:基于小学教材的汉语可读性公式研究[J].语言文字应用,2021(2):116-126. 被引量：9
2魏伟,郭崇慧,邢小宇.基于语义关联规则的试题知识点标注及试题推荐[J].数据分析与知识发现,2020,4(2):182-191. 被引量：9
3步一,薛睿,孟凡,黄文彬.知识图谱的关键技术及其在情报学中的应用[J].情报学进展,2022(1):349-384. 被引量：1
4谭红叶,李宣影,刘蓓.基于外部知识和层级篇章表示的阅读理解方法[J].中文信息学报,2020(4):85-91. 被引量：6
5成于思,施云涛.融合词典特征的Bi-LSTM-WCRF中文人名识别[J].中文信息学报,2020(4):69-76. 被引量：7
6梁龙跃,陈珊.Copula观点融合的Black-Litterman模型在资产配置中的应用[J].开发性金融研究,2021(4):53-64. 被引量：1
7于娟,张晨.基于Kernel-XGBoost的跨语言术语对齐方法[J].计算机科学,2022,49(S02):126-131. 被引量：1
8宋凯丽,李云岭,姚露露.基于条件随机场的分词标注一体化地址解析方法[J].测绘地理信息,2021,46(S01):185-187. 被引量：4
9廖祝华,刘建勋,易爱平.基于用户兴趣的Web服务发现[J].微电子学与计算机,2006,23(z1):23-25. 被引量：1
10钱爱兵,江岚.基于改进TF-IDF的中文网页关键词抽取——以新闻网页为例[J].情报理论与实践,2008,31(6):945-950. 被引量：29

1蔡勇智.基于最大匹配分词算法的中文词语粗分模型[J].福建电脑,2005,21(9):39-40. 被引量：2
2甘秋云.基于最短路径的二元语法中文词语粗分模型的研究[J].现代计算机,2013,19(17):7-10. 被引量：1
3于源,衣袭.中文全切分快速分词方法[J].大连铁道学院学报,2005,26(2):84-85. 被引量：4
4万志华,欧阳为民,张平庸.一种基于划分的动态聚类算法[J].计算机工程与设计,2005,26(1):177-179. 被引量：16
5岚山.评说数码伴侣（下）[J].摄影与摄像,2008(7):45-47.
6石敦奇.相加相乘哪个大？[J].少年科普世界（快乐数学1-3年级版）,2013(6):17-17.
7刘胜久,李天瑞,贾真,景运革.基于搜索引擎的相似度研究与应用[J].计算机科学,2014,41(4):211-214. 被引量：3
8铁生.如何降低着陆页面跳出率[J].计算机与网络,2014,40(18):42-43.
9范茂志,林秀.基于局部特征Gabor小波的BP神经网络的人脸识别[J].科技传播,2012,4(1):183-184.
10郭玉龙,吴晓军.蚁群算法在P2P搜索中的应用研究[J].计算机技术与发展,2011,21(10):55-58. 被引量：1

中文信息学报

2002年第5期

浏览历史

内容加载中请稍等...

基于N-最短路径方法的中文词语粗分模型被引量：99

参考文献1

二级参考文献8

共引文献42

同被引文献540

引证文献99

二级引证文献846

相关作者

相关机构

相关主题

浏览历史

基于N-最短路径方法的中文词语粗分模型 被引量：99

参考文献1

二级参考文献8

共引文献42

同被引文献540

引证文献99

二级引证文献846

相关作者

相关机构

相关主题

浏览历史

基于N-最短路径方法的中文词语粗分模型被引量：99