基于专有名词优先的快速中文分词被引量：5

A Rapid Chinese Word Segmentation Method Based on Priority Special Names

下载PDF

导出

摘要中文分词是中文信息处理系统中的一个重要部分。主题信息检索系统对分词的速度和准确率有特殊的要求。文中回答了词库建立的词条来源和存储结构两大问题,提出了一种基于专有名词优先的快速中文分词方法:利用首字哈希、按字数分层存储、二分查找的机制,通过优先切分专有名词,将句子切分成碎片,再对碎片进行正反两次机械切分,最后通过快速有效的评价函数选出最佳结果并作调整。实验证明,该分词方法对主题信息文献的分词速度达92万字每秒,准确率为96%,表明该分词方法在主题信息文献的分词处理中具有较高性能。 Chinese word .segmentation is a key component of Chinese information processing systems. The topic information retrieval system has special requirement for both speed and veracity. Answer two important questions for building dictionary： how to get word items and how to organize them, and design a rapid Chinese word segmentation algorithm based on dictionary based on special name. Use ＂first character Hash, store the items according to the word length, and binary search mechanism, cut the sentences by special name, then bidirection nmximum match to segment the rest, use an easy but effective .scoring function to select the best, and adjust at last. The experiment result shows this segmentation method can reach a speed of 920 000 words per .second, and the correctness rate can reach 96%, which proves that this method has high efficiency.

作者梁卓明陈炬桦

机构地区中山大学信息科学学院计算机系

出处《计算机技术与发展》 2008年第3期24-27,共4页 Computer Technology and Development

关键词中文分词专有名词词典机制 Chinese word segmentation special name dictionary mechanism

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献6

1孙茂松,邹嘉彦.汉语自动分词研究中的苦干理论问题[J].语言文字应用,1995(4):40-46. 被引量：45
2Palmer D.A trainable rule-based algorithm for word segmentation[C]// The 35th Annual Meeting of the Association for Computational Linguistics (ACL'97).Madrid:[s.n.],1997.
3Choi A,Cheng C H,Ko Y L.Word extraction from Chinese documents by occurrence counts[C]//1988 International Conference on Computer Processing of Chinese and Oriental Languages.Toronto,Canada:[s.n.],1988:488-491.
4Fan C K,Tsai W H.Automatic word identification in Chinese sentences by the relaxation technique[J].Computer Processing of Chinese and Oritental Languages,1988,4(1):33-56.
5孙茂松,左正平,黄昌宁.汉语自动分词词典机制的实验研究[J].中文信息学报,2000,14(1):1-6. 被引量：118
6刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：198

二级参考文献28

1孙茂松,邹嘉彦.汉语自动分词研究中的苦干理论问题[J].语言文字应用,1995(4):40-46. 被引量：45
2H Y Tan. Chinese place automatic recognition research. In: C N Huang, Z D Dong, eds. Proc of Computational Language.Beijing: Tsinghua University Press, 1999
3Zhang Huaping, Liu Qun, Zhang Hao, et al. Automatic recognition of Chinese unknown words recognition. First SIGHAN Workshop Attached with the 19th COLING, Taipei, 2002
4S R Ye, T S Chua, J M Liu. An agent-based approach to Chinese named entity recognition. The 19th Int'l Conf on Computational Linguistics, Taipei, 2002
5J Sun, J F Gao, L Zhang, et al. Chinese named entity identification using class-based language model. The 19th Int'l Conf on Computational Linguistics, Taipei, 2002
6Lawrence R Rabiner. A tutorial on hidden Markov models and selected applications in speech recognition. Proc of IEEE, 1989,77(2): 257～286
7Shai Fine, Yoram Singer, Naftali Tishby. The hierarchical hidden Markov model: Analysis and applications. Machine Learning,1998, 32(1): 41～62
8Richard Sproat, Thomas Emerson. The first international Chinese word segmentation bakeoff. The First SIGHAN Workshop Attached with the ACL2003, Sapporo, Japan, 2003. 133～143
9J Hockenmaier, C Brew. Error-driven learning of Chinese word segmentation. In: J Guo, K T Lua, J Xu, eds. The 12th Pacific Conf on Language and Information, Singapore, 1998
10Andi Wu, Zixin Jiang. Word segmentation in sentence analysis.1998 Int'l Conf on Chinese Information Processing, Beijing, 1998

共引文献338

1刘苗苗,李燕,王欣萌,甘琳琳,李虹.分级阅读初探:基于小学教材的汉语可读性公式研究[J].语言文字应用,2021(2):116-126. 被引量：9
2魏伟,郭崇慧,邢小宇.基于语义关联规则的试题知识点标注及试题推荐[J].数据分析与知识发现,2020,4(2):182-191. 被引量：9
3唐琳,郭崇慧,陈静锋.中文分词技术研究综述[J].数据分析与知识发现,2020,4(2):1-17. 被引量：44
4李丹宁,李丹,王保华,马新强.几种基于词典的中文分词算法评价[J].贵州科学,2008,26(3):1-8. 被引量：4
5马志强,刘利民,苏依拉,马瑞明.基于Lucene的站内搜索引擎研究[J].内蒙古工业大学学报（自然科学版）,2009,28(1):52-57. 被引量：7
6陈博逊,黄晶晓.一种基于HMM和CRF的双层分词模型[J].硅谷,2009,2(22).
7尹继豪,樊孝忠,刘士宁,于江德.一种基于Bootstrapping构建训练语料的方法[J].计算机研究与发展,2007,44(z2):394-397.
8于江德,谷川,葛文英,樊孝忠.一种基于字和子串联合标注的汉语分词方法[J].山西大学学报（自然科学版）,2011,34(3):357-362. 被引量：2
9于江德,周宏宇,余正涛.基于单个词语特征模板的汉语词性标注[J].山西大学学报（自然科学版）,2011,34(4):513-517. 被引量：1
10黄昌宁,孙茂松.中文信息处理最新成果的检阅——记新加坡中文电脑国际会议ICCC’96[J].当代语言学,1996(4):44-48. 被引量：1

同被引文献44

1张锋,许云,侯艳,樊孝忠.基于互信息的中文术语抽取系统[J].计算机应用研究,2005,22(5):72-73. 被引量：36
2牛冀平,胡志华,余志超.可扩展XML文本数据自动分析研究与实现[J].计算机技术与发展,2006,16(3):8-10. 被引量：1
3周蕾,朱巧明.基于统计和规则的未登录词识别方法研究[J].计算机工程,2007,33(8):196-198. 被引量：21
4蒋云,赵佳宝.自动化测试脚本自动生成技术的研究[J].计算机技术与发展,2007,17(7):4-7. 被引量：30
5Gao Jianfeng, Li Mu, Wu Andi, et al. Chinese Word Segmentation:A Prgamatic Approach[ M]. [ s. l. ]:[ s. n. ],2004.
6Chen K J, Ma W Y. Unknown word extraction for Chinese documents[C ]//The 19th COLING 2002. [ s. l. ] : [ s. n. ], 2002.
7Palmer D D. A Trainable Rule- Based Algorithm for Word Segmentation [ C ]//Proceedings of the 35th Annual Meeting of the Association for Computational Linguistics. [ s. l. ] : [ s. n. ],1997:321-328.
8Hiroshi Nakagaw,Tatsunori Mori,A Simple but Powerful Automatic Term Extraction Method.In Proceedings of the second International Workshop on Computational Terminology(COMPUTERM 02),PP.29—35,2002.
9Luo Zhiyong 2004,An Integrated Method for Chinese Unknown Word Extraction,ACL 2004.
10罗桂琼,费洪晓,戴弋.基于反序词典的中文分词技术研究[J].计算机技术与发展,2008,18(1):80-83. 被引量：18

引证文献5

1马丹,王翰虎,陈梅,张小平.Deep Web数据源发现与分类模型[J].计算机技术与发展,2010,20(7):65-67. 被引量：2
2胡毅,刘波.基于农业信息化知识检索系统关键技术分析与设计[J].软件,2011,32(8):9-12. 被引量：1
3唐籍涛,李飞,郭昌松.网络舆情监控中新词识别问题的研究[J].计算机技术与发展,2012,22(1):119-121. 被引量：8
4郑阳,莫建文.基于专业术语提取的中文分词方法[J].大众科技,2012,14(4):20-23. 被引量：1
5郭文星.针对安全生产隐患的智能搜索引擎系统研究[J].中国安全生产科学技术,2016,12(11):171-175. 被引量：2

二级引证文献14

1李先波,陆藩藩.基于地名地址的政务数据空间化方法[J].现代测绘,2019,42(5):40-43. 被引量：1
2钱程,阳小兰.Deep Web查询接口研究[J].计算机与现代化,2012(6):161-164.
3黄炜,余亚婷,王思婷.网络群体性事件的主题特征知识库研究[J].湖北工业大学学报,2013,28(3):9-13. 被引量：1
4方洁,龚立群.利益相关者视角下的微博舆情监测指标体系研究[J].情报杂志,2013,32(9):29-33. 被引量：21
5吴晨生,郭金忠,罗植,廖涛.中国科普网站的特征向量研究[J].科普研究,2013,8(5):43-46.
6肖红,许少华.改进的话题检测和跟踪算法研究[J].计算机技术与发展,2014,24(9):84-88. 被引量：3
7杨阳,魏晓,秦成磊.基于Web知识的中文分词结果优化[J].计算机应用与软件,2015,32(12):55-58. 被引量：6
8蔡礼渊.大数据环境下的网络文学舆情控制系统[J].中国市场,2016(2):206-207.
9常甜甜,陈军华.Deep Web数据源的发现和分类[J].上海师范大学学报（自然科学版）,2016,45(5):536-542.
10胡雨豪,刘波.基于机器视觉的四轴飞行器自主巡航算法改进[J].软件,2018,39(2):52-56. 被引量：4

1江光杰,郝伟刚.实时UNIX中文信息处理系统[J].军事通信技术,1993(1):26-31.
2彭琦,俞春强.浅析中文分词方法[J].信息通信,2015,28(3):92-93. 被引量：4
3陈鸿,金培权,岳丽华,胡玉娟,殷凤梅.基于上下文特征分类的评论长句切分方法[J].计算机工程,2015,41(9):233-237. 被引量：2
4陈天莹,陈蓉,潘璐璐,李红军,于中华.基于前后文n-gram模型的古汉语句子切分[J].计算机工程,2007,33(3):192-193. 被引量：25
5王建波,王开铸.中文信息处理系统及其集成支撑环境[J].计算机工程与设计,1992,13(1):41-45.
6喻正红.数据挖掘技术在图书馆借阅记录中的应用研究综述[J].山西青年,2016,0(10):40-40.
7王希杰,赵晓凡.浅谈汉语自动分词的几种方法[J].价值工程,2011,30(13):176-177.
8叶继平,张桂珠.中文分词词典结构的研究与改进[J].计算机工程与应用,2012,48(23):139-142. 被引量：12
9孙玉方.Unix中文信息处理系统的现状与展望[J].中国计算机用户,1990(3):39-41.
10王川,张小红,韩采华.古汉语句子切分与句读标记方法研究[J].河南大学学报（自然科学版）,2009,39(5):525-529. 被引量：2

计算机技术与发展

2008年第3期

浏览历史

内容加载中请稍等...

基于专有名词优先的快速中文分词被引量：5

参考文献6

二级参考文献28

共引文献338

同被引文献44

引证文献5

二级引证文献14

相关作者

相关机构

相关主题

浏览历史

基于专有名词优先的快速中文分词 被引量：5

参考文献6

二级参考文献28

共引文献338

同被引文献44

引证文献5

二级引证文献14

相关作者

相关机构

相关主题

浏览历史

基于专有名词优先的快速中文分词被引量：5