回溯正向匹配中文分词算法被引量：16

Backtracking matching Chinese segmentation method

下载PDF

导出

摘要在最大匹配法(The Maximum Matching Method)的基础上,提出了一种回溯正向匹配(The Backtracking Matching Method)的中文分词方法。该方法首先对待切文本进行预处理,将文本分割成长度较短的细粒度文本;利用正向匹配、回溯匹配和尾词匹配来有效发现歧义字段;利用长词优先兼顾2词簇的方式对交集型歧义字段进行切分。最后对该算法进行的定性分析说明了该方法的先进性,从随机抽取大量语料实验结果上证明了该方法的有效性。 Chinese word segmentation methods of the backtracking matching method is proposed based on the maximum matching method.The text is pretreatment by the BM in the first,then,the text is cut into shorter lengths granular text;Ambiguity field is found effective by forward matching method,backtracking matching method and last words matching Method;Crossing ambiguity field is cut by l_~ng term priorities and 2-words rules.In the last,the algorithm of the qualitative analysis shows that the method of the advanced nature.The large number of randomly selected language materials being tested and results show that the method is effective.

作者张劲松袁健

机构地区上海理工大学计算机与电气工程学院

出处《计算机工程与应用》 CSCD 北大核心 2009年第22期132-134,共3页 Computer Engineering and Applications

关键词中文分词最大匹配法回溯匹配交集型歧义 Chinese word segmentation Maximum Matching（MM） methods backtracking matching crossing ambiguity

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1罗桂琼,费洪晓,戴弋.基于反序词典的中文分词技术研究[J].计算机技术与发展,2008,18(1):80-83. 被引量：18
2张永奎,张彦,安增波,刘睿.Web新闻语料分词和标注错误分析[J].计算机工程与应用,2007,43(15):166-169. 被引量：4
3肖红,许少华,李欣.具有三级索引词库结构的中文分词方法研究[J].计算机应用研究,2006,23(8):49-51. 被引量：16
4罗智勇,宋柔.现代汉语通用分词系统中歧义切分的实用技术[J].计算机研究与发展,2006,43(6):1122-1128. 被引量：19
5孙茂松,肖明,邹嘉彦.基于无指导学习策略的无词表条件下的汉语自动分词[J].计算机学报,2004,27(6):736-742. 被引量：37
6闫引堂,周晓强.交集型歧义字段切分方法研究[J].情报学报,2000,19(6):637-643. 被引量：22
7孙茂松,黄昌宁,邹嘉彦,陆方,沈达阳.利用汉字二元语法关系解决汉语自动分词中的交集型歧义[J].计算机研究与发展,1997,34(5):332-339. 被引量：66
8揭春雨,刘源,梁南元.论汉语自动分词方法[J].中文信息学报,1989,3(1):1-9. 被引量：55

二级参考文献48

1陈小荷.自动分词中未登录词问题的一揽子解决方案[J].语言文字应用,1999(3):103-109. 被引量：26
2文庭孝,邱均平,侯经川.汉语自动分词研究展望[J].现代图书情报技术,2004(7):6-10. 被引量：20
3刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：198
4张磊,周明,黄昌宁,潘海华.中文文本自动校对[J].语言文字应用,2001(1):19-26. 被引量：23
5孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：101
6张虎,郑家恒,刘江.汉语语料库词性标注自动校对方法研究[J].计算机应用,2005,25(1):17-19. 被引量：1
7文庭孝.汉语自动分词研究进展[J].图书与情报,2005(5):54-63. 被引量：20
8黄萱菁,吴立德,王文欣,叶丹瑾.基于机器学习的无需人工编制词典的切词系统[J].模式识别与人工智能,1996,9(4):297-303. 被引量：24
9孙茂松,黄昌宁,邹嘉彦,陆方,沈达阳.利用汉字二元语法关系解决汉语自动分词中的交集型歧义[J].计算机研究与发展,1997,34(5):332-339. 被引量：66
10马晏.基于评价的汉语自动分词系统的研究与实现[A]..语言信息处理专论[C].北京:清华大学出版社,1996..

共引文献195

1王哲.基于特征码的网页去重算法研究[J].山东电大学报,2009(1):14-16. 被引量：4
2刘春辉,金顺福,刘国华,李颖.基于优化最大匹配与统计结合的汉语分词方法[J].燕山大学学报,2009,33(2):124-129. 被引量：9
3王军辉.汉语自动分词研究进展[J].魅力中国,2009(30):333-333.
4肖升,胡金柱,姚双云,吴锋文.关系词搭配的联列分析[J].宁夏大学学报（人文社会科学版）,2009,31(6):75-79. 被引量：2
5许桢.基于语义网的文本分类系统设计与实现[J].硅谷,2009,2(18).
6普布旦增,欧珠.藏文分词中交集型歧义字段的切分方法研究[J].西藏大学学报（社会科学版）,2010,25(S1):196-197. 被引量：2
7叶施仁,严水歌,杨长春.新浪微博搜索排序方法研究[J].常州大学学报（自然科学版）,2013,25(3):71-75.
8施建军.用计算机对日语进行研究的基础——浅谈机器单词辞典和单词的自动切分[J].解放军外国语学院学报,1991,14(3):25-28.
9洪虹,李波.汉语自动分词研究进展[J].魅力中国,2009,0(22):114-114.
10李强,李侯润.半自动分词技术[J].计算机工程与设计,1992,13(1):37-40.

同被引文献143

1张恒,杨文昭,屈景辉,卢虹冰,张亮,赵飞.基于词典和词频的中文分词方法[J].微计算机信息,2008,24(3):239-240. 被引量：19
2车宏安,顾基发.无标度网络及其系统科学意义[J].系统工程理论与实践,2004,24(4):11-16. 被引量：97
3徐秉铮,詹剑,贺前华.基于神经网络的分词方法[J].中文信息学报,1993,7(2):36-44. 被引量：15
4彭波,李晓明.搜索引擎倒排文件的一种分块组织技术[J].电子学报,2005,33(2):358-362. 被引量：9
5张江.基于规则的分词方法[J].计算机与现代化,2005(4):18-20. 被引量：15
6张锋,许云,侯艳,樊孝忠.基于互信息的中文术语抽取系统[J].计算机应用研究,2005,22(5):72-73. 被引量：36
7陈耀东,王挺.基于有向图的双向匹配分词算法及实现[J].计算机应用,2005,25(6):1442-1444. 被引量：7
8席运江,党延忠.基于知识网络的专家领域知识发现及表示方法[J].系统工程,2005,23(8):110-115. 被引量：59
9马瑞敏,邱均平.基于CSSCI的论文同被引实证计量研究——以图书馆学、情报学为例[J].图书情报知识,2005,22(5):77-79. 被引量：28
10文庭孝.汉语自动分词研究进展[J].图书与情报,2005(5):54-63. 被引量：20

引证文献16

1徐吉,朱兰娟.用于网络搜索引擎的中文分词消岐算法[J].微型电脑应用,2011(4):52-54.
2梁桢,李禹生.基于Hash结构词典的逆向回溯中文分词技术研究[J].计算机工程与设计,2010,31(23):5158-5160. 被引量：5
3刘阳,宋余庆.搜索引擎学术研究知识图谱[J].图书情报知识,2010,27(6):105-110. 被引量：10
4廖开际,叶东海,吴敏.组织知识共享网络模型研究——基于知识网络和社会网络[J].科学学研究,2011,29(9):1356-1364. 被引量：27
5廖开际,叶东海,闫健峻,吴敏.基于加权语义网的专家知识发现及表示方法[J].情报学报,2012,31(1):60-64. 被引量：10
6索娟娟,于宝英.基于灰熵的汉语机器翻译消歧研究[J].科技信息,2012(3):39-39.
7郑阳,莫建文.基于专业术语提取的中文分词方法[J].大众科技,2012,14(4):20-23. 被引量：1
8梁恒.地址编码系统设计中关于中文分词的研究[J].华东科技（学术版）,2012(12):493-493.
9莫建文,郑阳,首照宇,张顺岚.改进的基于词典的中文分词方法[J].计算机工程与设计,2013,34(5):1802-1807. 被引量：40
10廖开际,杨彬彬.基于加权超网络模型的组织知识共享研究[J].情报学报,2013,32(5):503-510. 被引量：6

二级引证文献136

1冯建英,吴丹丹,王博,王智,穆维松.中文在线评论文本分析对生鲜农产品电商影响研究综述[J].农业机械学报,2021,52(S01):504-512. 被引量：7
2蒋旭东,杨莉,舒启江,刘红杏,张美娜,赵林波.中医药院校“互联网+”创新创业项目培育策略分析[J].创新创业理论研究与实践,2022(5):194-198.
3杨靖,张帆,郭雅鑫.基于文本词性结构和PCA算法的问卷优化[J].中国汽车,2020(9):14-19. 被引量：1
4丁洁.基于Lucene的中文分词系统设计与实现[J].自动化与仪器仪表,2016(5):208-210. 被引量：5
5丁洁.基于最佳粒度匹配的中文分词算法的研究[J].自动化与仪器仪表,2016(7):169-170. 被引量：1
6张聪品,赵理莉.统计模型中附加语言学规则的蒙古语词法分析[J].计算机工程与设计,2011,32(8):2861-2864.
7奉国和,梁晓婷.国内推荐引擎学术研究知识图谱分析[J].情报科学,2012,30(1):144-148. 被引量：6
8叶平浩.信息资源管理研究热点与前沿的可视化分析[J].现代情报,2012,32(7):36-42. 被引量：4
9王燕平.基于文献计量的我国搜索引擎研究现状和热点分析[J].现代情报,2012,32(7):68-73. 被引量：5
10祝锡永,潘旭伟,周益辉,李晟.基于知识超网络视角的组织知识协同共建[J].情报学报,2012,31(11):1163-1170. 被引量：3

1袁健,张劲松,马良.二次回溯中文分词方法[J].计算机应用研究,2009,26(9):3321-3323. 被引量：3
2陈勇,王昌明.基于自然语言理解的故障诊断方法研究[J].计算机测量与控制,2012,20(3):610-613. 被引量：2
3张彩琴,袁健.改进的正向最大匹配分词算法[J].计算机工程与设计,2010,31(11):2595-2597. 被引量：11
4姚磊岳,熊建英.一种基于中文分词算法的信息过滤技术[J].科技广场,2007(7):111-113.
5谭琼,史忠植.分词中的歧义处理[J].计算机工程与应用,2002,38(11):125-127. 被引量：29
6金在全,赵照,杜秀全,张东.一种改进的增字最大匹配算法[J].科学技术与工程,2007,7(18):4761-4764. 被引量：12
7路永刚,赵伟.一种改进的MM分词方法的研究与实现[J].长春工业大学学报,2006,27(4):320-323. 被引量：3
8赵晓凡,胡顺义.基于正向最大匹配的汉语分词[J].安阳师范学院学报,2010(5):13-15. 被引量：2
9徐吉,朱兰娟.用于网络搜索引擎的中文分词消岐算法[J].微型电脑应用,2011(4):52-54.
10胡婕,李跃新.数据库受限汉语自然语言查询的分词研究与实现[J].湖北大学学报（自然科学版）,2005,27(4):331-335. 被引量：1

计算机工程与应用

2009年第22期

浏览历史

内容加载中请稍等...

回溯正向匹配中文分词算法被引量：16

参考文献8

二级参考文献48

共引文献195

同被引文献143

引证文献16

二级引证文献136

相关作者

相关机构

相关主题

浏览历史

回溯正向匹配中文分词算法 被引量：16

参考文献8

二级参考文献48

共引文献195

同被引文献143

引证文献16

二级引证文献136

相关作者

相关机构

相关主题

浏览历史

回溯正向匹配中文分词算法被引量：16