基于数据词典的中文分词算法优化实现被引量：3

Realization of Chinese Word Segmentation Algorithm Optimization Based on Data Dictionary

下载PDF

导出

摘要中文分词算法是中文自然语言理解的基础,文章运用C#语言实现了正向、逆向、最长词、最短词的分词算法,通过大量样本实例分析,对不同算法进行了比较,介绍了分词算法在新词发现、歧义发现中的应用,重点阐述了关系型数据库、文本文件等不同数据结构的数据词典对中文分词算法速度的影响,创新性地引入一种非常规的数据词典索引表,大大提升了分词算法的速度。 Chinese word segmentation algorithm is the basis of Chinese natural language understanding.This paper uses C# language to realize the forward,reverse,longest and shortest word segmentation algorithms.Through the analysis of a large number of sample examples,this paper compares different algorithms,introduces the application of word segmentation algorithm in new word discovery and ambiguity discovery,and focuses on the impact of data dictionaries with different data structures such as relational databases and text files on the speed of Chinese word segmentation algorithm,an unconventional data dictionary index table is innovatively introduced,which greatly improves the speed of word segmentation algorithm.

作者鲍曙光 BAO Shuguang(Vocational Education Center,China Coast Guard Academy,Ningbo 315801,China)

机构地区武警海警学院职业教育中心

出处《现代信息科技》 2022年第7期80-84,共5页 Modern Information Technology

关键词中文分词算法优化新词发现歧义消除自然语言识别 Chinese word segmentation algorithm optimization new word discovery ambiguity elimination natural language recognition

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1陈静雯,马福民,刘新,李娟.基于神经网络的预警领域分词仿真算法[J].计算机仿真,2021,38(12):1-6. 被引量：3
2杨文珍,徐豪杰,汪文妃,宣建强,赵维,吴新丽,潘海鹏.基于逆向最大匹配分词算法的汉盲翻译系统[J].计算机应用与软件,2021,38(10):84-91. 被引量：7
3周寅,龙广富.云计算平台上两种中文分词算法的实现对比研究[J].电脑知识与技术,2021,17(9):191-192. 被引量：6
4李文华.中文分词算法在搜索引擎应用中的运用[J].电脑知识与技术,2021,17(6):181-182. 被引量：4
5谷瑞.对中文分词歧义消除算法的研究[J].苏州市职业大学学报,2015,26(4):25-27. 被引量：1

二级参考文献30

1庄丽,包塔,朱小燕.盲人用计算机软件系统中的语音和自然语言处理技术[J].中文信息学报,2004,18(4):72-78. 被引量：9
2余战秋.中文分词技术及其应用初探[J].电脑知识与技术（认证考试）,2004(11M):81-83. 被引量：11
3张春霞,郝天永.汉语自动分词的研究现状与困难[J].系统仿真学报,2005,17(1):138-143. 被引量：60
4张江.基于规则的分词方法[J].计算机与现代化,2005(4):18-20. 被引量：15
5邓曙光,曾朝晖.汉语分词中一种逐词匹配算法的研究[J].湖南城市学院学报（自然科学版）,2005,14(1):76-78. 被引量：6
6张培颖,李村合.一种改进的上下文相关的歧义字段切分算法[J].计算机系统应用,2006,15(5):46-48. 被引量：6
7朱小娟,陈特放.词频统计中文分词技术的研究[J].仪器仪表用户,2007,14(3):78-79. 被引量：6
8许高建,胡学钢,路遥,王庆人.一种改进的中文分词歧义消除算法研究[J].合肥工业大学学报（自然科学版）,2008,31(10):1622-1625. 被引量：6
9杨潮,车磊.汉字盲文转换系统的设计[J].北京印刷学院学报,2011,19(6):36-38. 被引量：8
10孙茂松,左正平,黄昌宁.汉语自动分词词典机制的实验研究[J].中文信息学报,2000,14(1):1-6. 被引量：118

共引文献15

1胡庆玲,林栋,陈楷闻,吴新丽,梁宏博,杨文珍.基于国家通用盲文标调规则的汉盲转换系统[J].计算机系统应用,2022,31(12):59-68. 被引量：1
2贾晓晶.英文版导航电子地图制作的改进方法[J].北京测绘,2022,36(4):394-399.
3付敏.基于特征提取的英汉机器自动转换翻译系统设计[J].自动化与仪器仪表,2022(5):166-169. 被引量：1
4周慧,徐名海,许晓东.基于Attention-BIGRU-CRF的中文分词模型[J].计算机与现代化,2022(8):7-12. 被引量：1
5杜新宇,吴俊杰.基于改进的长短期记忆网络模型的电商评论关键词提取[J].信息记录材料,2022,23(8):156-158.
6马倩茜,郭涛,唐志航.基于机器学习的商品评论特征提取有用性研究[J].湖南工程学院学报（自然科学版）,2022,32(4):47-54.
7邬亮,丁光正,王一囡.中文分词检索技术的现状与前景[J].通讯世界,2022,29(9):193-195.
8钟昕妤,李燕.中文分词技术研究进展综述[J].软件导刊,2023,22(2):225-230. 被引量：8
9王蕊.基于特征提取的电气专业英汉机器自动转换翻译系统设计[J].自动化与仪器仪表,2023(2):237-241.
10付瀚臣,徐海博.基于标签体系的客户价值评价系统应用[J].东北电力技术,2023,44(4):13-15.

同被引文献10

1石凤贵.基于自然语言处理的Word2Vec词向量应用[J].黑河学院学报,2020,11(7):173-177. 被引量：11
2佘琪星,王必聪,刘铭,秦兵,王莉峰.基于同义词词林和预训练词向量的微调方法[J].中文信息学报,2020,34(10):27-32. 被引量：1
3唐国豪.分布式词向量研究和实现[J].电子制作,2021,29(2):85-87. 被引量：6
4乔非,关柳恩,王巧玲.基于余切相似度和BP神经网络的相似度快速计算[J].同济大学学报（自然科学版）,2021,49(1):153-162. 被引量：7
5任景,张小东,薛晨,刘鹏飞,臧阔,杨安奇.面向智能电网应用的电力大数据关键技术研究[J].信息技术,2021,45(5):147-152. 被引量：12
6吴茜,李尧辉,朱青仑.基于HMM-Viterbi的通信网络资源数据处理方法及应用[J].移动通信,2022,46(2):89-94. 被引量：3
7刘洋,余甜,丁艺.一种新的基于最大概率路径的中文分词[J].计算机与数字工程,2022,50(3):591-596. 被引量：6
8林游龙.基于隐马尔可夫模型的分词算法的设计与实现[J].网络安全技术与应用,2022(8):27-29. 被引量：4
9刘啸婵,丁宗玮,戴煜炜,刘晓川.中文地名地址匹配方法综述[J].测绘与空间地理信息,2023,46(9):64-67. 被引量：2
10董元和,贾炎,朱勇,李恩泽,薛贤红.基于ElasticSearch分布式搜索引擎的信息检索方法研究[J].湖北师范大学学报（自然科学版）,2023,43(4):56-61. 被引量：4

引证文献3

1刘奕,何成艳,刘陵轶,邹福,欧进永,杨洪.基于词库过滤与分布式词向量的安全生产风险问题智能匹配算法分析研究[J].科技创新与生产力,2023,44(6):1-3.
2康珺,张勇,米凯,李秀山,秦良斌.基于深度学习的工单智能检测探讨[J].中国有线电视,2023(9):15-19. 被引量：1
3张建广,徐鲲,董鉥涛,刘迪,王向上,李春林.基于ElasticSearch的输变电工程全文检索研究[J].黑龙江科学,2024,15(16):94-97.

二级引证文献1

1姚荣进.通信基站故障工单智能质检策略研究[J].广东通信技术,2024,44(9):69-71.

1苏颜,张珍,林庆达,侯剑,吴燕.基于BP神经网络算法的短期电力负荷预测研究[J].电子设计工程,2022,30(12):167-170. 被引量：23
2陈云,王梦园,柴晓楠,商建东.面向FT-M7002的高斯滤波算法优化实现[J].计算机工程与科学,2021,43(5):799-806. 被引量：7
3林洪,袁红波.基于静止坐标系的配电网安全域动态划分系统设计[J].电子设计工程,2021,29(18):21-25.
4范明亮,郭子涵,柴晓楠,商建东.面向FT-M7002的Sobel边缘检测算法优化实现[J].计算机工程,2022,48(6):193-199. 被引量：6
5潘海鸥.《素问·阴阳应象大论篇》英语语料库的构建与研究[J].中国中医基础医学杂志,2022,28(4):630-634. 被引量：5
6刘洋.河北省动物检疫全链条信息化监管模式[J].今日畜牧兽医,2022,38(7):42-43. 被引量：1
7黄承宁,李双梅,景波.基于深度学习表示的医学主题语义相似度计算研究[J].计算机与数字工程,2022,50(6):1149-1152. 被引量：5
8曾炜,苏腾,王晖,田永鸿,高文.鹏程·盘古:大规模自回归中文预训练语言模型及应用[J].中兴通讯技术,2022,28(2):33-43. 被引量：5

现代信息科技

2022年第7期

浏览历史

内容加载中请稍等...

基于数据词典的中文分词算法优化实现被引量：3

参考文献5

二级参考文献30

共引文献15

同被引文献10

引证文献3

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于数据词典的中文分词算法优化实现 被引量：3

参考文献5

二级参考文献30

共引文献15

同被引文献10

引证文献3

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于数据词典的中文分词算法优化实现被引量：3