几种基于词典的中文分词算法评价被引量：4

THE EVALUATION OF SEVERAL ALGORITHMS FOR DICTIONARY-BASED CHINESE WORD SEGMENTATION

下载PDF

导出

摘要基于词典的中文自动分词是中文信息处理的基础.按照使用计算机缓存的优化原则,分析了几种典型的分词词典机制,指出了其中的一些问题.改进了整词二分法,极大地提高了速度.结合哈希索引和PATRICIA tree搜索算法,提出了一个综合最优化的中文分词系统. Several typical Chinese word segmentation algorithms based on dictionary were discussed in this paper,and existing problems of these algorithms were identified.The method of binary-seek-by-word was improved through optimizing the usage of computers cache.Combining with the hash index and the PATRICIA tree search mechanisms,an optimized comprehensive Chinese word segmentation method was proposed.

作者李丹宁李丹王保华马新强

机构地区贵州科学院贵州大学信息工程学院

出处《贵州科学》 2008年第3期1-8,共8页 Guizhou Science

基金贵州省科技厅年度计划项目黔科合(2004)JN057资助

关键词中文信息处理自动分词分词词典缓存优化 Chinese information processing Chinese word segmentation segmentation dictionary cache optimization

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1孙茂松,左正平,黄昌宁.汉语自动分词词典机制的实验研究[J].中文信息学报,2000,14(1):1-6. 被引量：118
2杨文峰,陈光英,李星.基于PATRICIA tree的汉语自动分词词典机制[J].中文信息学报,2001,15(3):44-49. 被引量：30
3李庆虎,陈玉健,孙家广.一种中文分词词典新机制——双字哈希机制[J].中文信息学报,2003,17(4):13-18. 被引量：108
4[5]IA-32 IA-32 Intel Architecture Optin ization Reference Manual,Order Number 248966-013US,April2006

二级参考文献6

1孙茂松,邹嘉彦.汉语自动分词研究中的苦干理论问题[J].语言文字应用,1995(4):40-46. 被引量：45
2马晏.基于评价的汉语自动分词系统的研究与实现[A]..语言信息处理专论[C].北京:清华大学出版社,1996..
3Choi A, Cheng C H, Ko Y L. Word extraction from Chinese documents by occurrence counts [ A].1988 International Conference on Computer Processing of Chinese and Oriental Languages, Toronto,Canada: 488 - 491.
4Fan C K, Tsai W H. Automatic word identification in Chinese sentences by the relaxation technique[J]. Computer Processing of Chinese and Oriental Languages, 1988, 4(1):33-56.
5梁南元.书面汉语自动分词系统—CDWS[J].中文信息学报,1987,(2):44-52.
6孙茂松,左正平,黄昌宁.汉语自动分词词典机制的实验研究[J].中文信息学报,2000,14(1):1-6. 被引量：118

共引文献190

1唐琳,郭崇慧,陈静锋.中文分词技术研究综述[J].数据分析与知识发现,2020,4(2):1-17. 被引量：43
2段小斌,林雯,阮百尧,陈基漓.一种基于三级索引词库结构的中文分词方法研究[J].计算机与数字工程,2007,35(7):47-49. 被引量：5
3范戈,廖碧成.一种基于词义分析的短信问答系统的设计与实现[J].山东通信技术,2009,29(1):18-21.
4马志强,刘利民,苏依拉,马瑞明.基于Lucene的站内搜索引擎研究[J].内蒙古工业大学学报（自然科学版）,2009,28(1):52-57. 被引量：7
5曾铭,俞俊生,刘绍华.一种用于社交网站的云安全敏感信息过滤模型[J].华中科技大学学报（自然科学版）,2012,40(S1):211-214. 被引量：4
6崔岩.脚本测试技术在列控中心开发测试中的运用[J].铁路通信信号工程技术,2013,10(S1):149-153. 被引量：2
7金瑜,陆启明,高峰.基于上下文相关的最大概率汉语自动分词算法[J].计算机工程,2004,30(16):146-148. 被引量：8
8张春霞,郝天永.汉语自动分词的研究现状与困难[J].系统仿真学报,2005,17(1):138-143. 被引量：60
9邓曙光,曾朝晖.汉语分词中一种逐词匹配算法的研究[J].湖南城市学院学报（自然科学版）,2005,14(1):76-78. 被引量：6
10冯蜀茗,张小真,奚晓霞.支持CSCL中相关度监控的领域词典构建研究[J].西南师范大学学报（自然科学版）,2005,30(3):430-434. 被引量：1

同被引文献27

1王笑旻.基于Bigram的特征词抽取及自动分类方法研究[J].计算机工程与应用,2005,41(22):177-179. 被引量：5
2孙茂松,黄昌宁,邹嘉彦,陆方,沈达阳.利用汉字二元语法关系解决汉语自动分词中的交集型歧义[J].计算机研究与发展,1997,34(5):332-339. 被引量：66
3黄昌宁,赵海.中文分词十年回顾[J].中文信息学报,2007,21(3):8-19. 被引量：249
4邹智敏,郭荷清,高英.一种对英文字符串进行分词的方法[J].计算机应用研究,2007,24(7):52-54. 被引量：2
5翟风文.统计和字典相结合的中文分词[D].沈阳:吉林大学,2005.
6习明,王增辉,庄怡.基于双层哈希表的中文分词算法优化[J]. 2010,9( 10) :54-55.
7李跃民,王浩,赵生慧.有词典中文分词算法研究[J].滁州学院学报,2008,10(3):22-25. 被引量：3
8张磊,张代远.中文分词算法解析[J].电脑知识与技术,2009,5(1):192-193. 被引量：15
9周程远,朱敏,杨云.基于词典的中文分词算法研究[J].计算机与数字工程,2009,37(3):68-71. 被引量：22
10徐哲,刘循.贝叶斯决策树在英文现在分词词性识别中的应用[J].计算机应用,2009,29(9):2571-2574. 被引量：6

引证文献4

1陈玫,蒙祖强.面向医学知识的中文分词词典设计与实现[J].大众科技,2010,12(11):140-142.
2赵阳阳,王亮,仇阿根.地址要素识别机制的地名地址分词算法[J].测绘科学,2013,38(5):74-76. 被引量：26
3李一,刘纪平,罗安.深度学习的中文地址切分算法[J].测绘科学,2018,43(10):107-111. 被引量：7
4廖坤.基于循环神经网络和条件随机场模型在电信标准地址分级中的应用研究[J].通信与信息技术,2022(6):137-141.

二级引证文献31

1徐聪,张丰,杜震洪,张逸然,陈明,刘仁义.基于哈希和双数组trie树的多层次地址匹配算法[J].浙江大学学报（理学版）,2014,41(2):217-222. 被引量：11
2应申,李威阳,贺彪,王维,万远.统计决策树下的城市地址集中文分词[J].武汉大学学报（信息科学版）,2019,44(2):302-309. 被引量：10
3吕欢欢,宋伟东.多元地址要素组合的地址匹配方法[J].测绘科学,2015,40(3):96-100. 被引量：8
4甘宗平.“天地图·中山”兴趣点检索技术研究[J].地理空间信息,2015,13(5):35-37.
5诸敏秋,宋以胜,王芙蓉,尹向军,赵伟.面向新型城镇规划与精细化管理的地名地址数据建设思考——以南京市为例[J].测绘通报,2016(2):127-131. 被引量：5
6钟远军,李自,雷丽珍,朱晓强.基于字符匹配算法组合的地理空间敏感属性检测系统[J].测绘与空间地理信息,2016,39(5):116-118.
7李晓林,黄爽,卢涛,李霖.非规范化中文地址的行政区划提取算法[J].计算机应用,2017,37(3):876-882. 被引量：7
8谢婷婷,严柯.基于统计的中文地址位置语义解析方法研究[J].软件导刊,2017,16(10):19-21. 被引量：8
9李想,刘纪平,罗安,王勇.面向微博的灾害类事件地址提取与空间定位方法——以地震事件为例[J].测绘与空间地理信息,2018,41(4):128-131. 被引量：8
10李新放,宋转玲,陈学业,贺彪,刘海行.K叉树地址的模糊匹配研究与实现[J].测绘通报,2018(9):126-129. 被引量：6

1马哲,姚敏.一种改进的基于PATRICIA树的汉语自动分词词典机制[J].华南理工大学学报（自然科学版）,2004,32(z1):28-31. 被引量：3
2许华,刘勇.中文分词词典机制的研究[J].福建电脑,2010(3):42-43.
3陈杰,薛质,单蓉胜.一种基于Patricia树的检测Syn Flood攻击的方法[J].计算机工程,2004,30(13):26-28. 被引量：4
4刘强强,余黎青,赵鹏,刘慧婷.基于移动平台的图像检索系统[J].计算机技术与发展,2016,26(11):10-13. 被引量：1
5杨春花,张洁,胡芳立.一个书面汉语词库系统的设计与实现[J].山东轻工业学院学报（自然科学版）,2006,20(2):29-34.
6张飞飞,李华伟,韩银和.一种无回溯的最长前缀匹配搜索算法[J].计算机工程,2008,34(10):52-54. 被引量：1
7马达,王佳强.一种基于压缩FP-树的最大频繁项集挖掘算法[J].长春理工大学学报（自然科学版）,2009,32(3):457-461. 被引量：3
8原佳丽,杨仁广,孟祥增.快速双向中文分词算法[J].山东师范大学学报（自然科学版）,2009,24(1):75-77.
9何长林,张蕾.基于PATRICIA树的NetFlow数据蠕虫病毒分析[J].自动化与仪器仪表,2015(1):135-136 138.
10彭焕峰,丁宋涛.一种基于全Hash的整词二分词典机制[J].计算机工程,2011,37(21):40-42. 被引量：2

贵州科学

2008年第3期

浏览历史

内容加载中请稍等...

几种基于词典的中文分词算法评价被引量：4

参考文献4

二级参考文献6

共引文献190

同被引文献27

引证文献4

二级引证文献31

相关作者

相关机构

相关主题

浏览历史

几种基于词典的中文分词算法评价 被引量：4

参考文献4

二级参考文献6

共引文献190

同被引文献27

引证文献4

二级引证文献31

相关作者

相关机构

相关主题

浏览历史

几种基于词典的中文分词算法评价被引量：4