基于条件随机场的汉语分词系统被引量：15

CRF-based Chinese Word Segmentation Research

下载PDF

导出

摘要汉语分词是自然语言处理的首要的基本工作。本文提出了一个基于条件随机场(简称CRF)的汉语分词模型,CRF模型作为一个判别模型,可以容纳任意的非独立的特征信息。我们首先将分词看作是一个标记的过程,然后利用CRF模型对每个汉字进行标记,最后转换为相应的分词结果。系统采用感知机(Perceptron)算法进行参数训练。跟以前利用CRF进行分词的模型相比,本系统定义并使用了不同的特征函数,取得了更好的切分结果。在1st SIGHAN分词比赛PK测试集上封闭测试,F值为95.2%。 Chinese word segmentation is the basic task in the NLP research. A CRF-based word segmentation system is proposed in this paper. CRF model which is a discriminable model can incorporate any arbitrary and non-independent feature. Firstly, we convert the segmentation to a tagging problem. Then, the characters are tagged by CRF model, and the corresponding segmentation result is obtained. A pereeotron algorithm is used in training parameters. The system is tested in the 1st SIGHAN PK testing set and the F-value is 95.2%.

作者李双龙刘群王成耀

机构地区北京科技大学中科院计算所

出处《微计算机信息》北大核心 2006年第10S期178-180,共3页 Control & Automation

基金 863课题"中文平台评价体系研究与基础数据库建设"(2004AA114010) 863课题"中文信息处理与人机交互技术的测评系统和体系"(2003AA111010)

关键词汉语分词条件随机场感知机 Chinese word segmentation, CRF, Perceptron

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献7

1J. Lafferty, A. McCallum, and F. Pereira. Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data. [C] In Proceedings of the 18th International Conf. on Machine Learning, pages 282-289. 2001
2Fuchun Peng, Fangfang Feng, and Andrew McCallum; Chinese Segmentation and New Word Detection using Conditional Random Fields. [C] In Proceedings of The 20th International Conference on Computational Linguistics (COLING 2004) , pages 562-568, August 23-27, 2004
3Ng, Hwee Tou & Low, Jin Kiat. Chinese Part-of-Speech Tagging: One-at-a-Time or All-at-Once? Word-Based or Character-Based? [C] Proceedings of the 2004 Conference on Empirical Methods in Natural Language Processing. EMNLP 2004.
4N. Xue. Chinese Word Segmentation as Character Tagging. [C]International Journal of Computational Linguistics and Chinese Language Processing.2003
5Collins, M. (2002). Discriminative Training Methods for Hidden Markov Models: Theory and Experiments with the Perceptron Algorithm. [C] In Proceedings of EMNLP 2002.
6R. Sproat and T. Emerson. The first international Chinese word segmentation bakeoff. [C] In Proc. of SIGHAN Workshop. 2003.
7金春实,丁晓青,彭良瑞,刘长松.基于词素的日文分词方法及其在OCR系统中的应用[J].微计算机信息,2006(01X):244-246. 被引量：2

二级参考文献1

1孟高勇,刘正军,胡捍英.直接序列扩频系统中的一种新PN码跟踪环[J].微计算机信息,2005,21(4):184-185. 被引量：7

共引文献1

1张凌寒,王宏卫.大学生就业相关主体之市场行为规范分析[J].中国大学生就业,2005(20):58-59. 被引量：2

同被引文献125

1陈勇.情感语义及其民族文化特点[J].外语与外语教学,2003(5):39-43. 被引量：12
2周强.汉语句法树库标注体系[J].中文信息学报,2004,18(4):1-8. 被引量：90
3文庭孝,邱均平,侯经川.汉语自动分词研究展望[J].现代图书情报技术,2004(7):6-10. 被引量：20
4张素娟,郑庆华,胡云华,孙霞.一种面向网络答疑的汉语切分歧义消除算法[J].计算机工程与应用,2004,40(25):55-58. 被引量：4
5刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：198
6孙茂松,肖明,邹嘉彦.基于无指导学习策略的无词表条件下的汉语自动分词[J].计算机学报,2004,27(6):736-742. 被引量：37
7李凯,左万利,吕巍.汉语文本中交集型切分歧义的分类处理[J].小型微型计算机系统,2004,25(8):1486-1490. 被引量：3
8孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：101
9王振华,孔祥龙,陆汝占,刘绍明.结合决策树方法的中文姓名识别[J].中文信息学报,2004,18(6):10-15. 被引量：15
10黄祥喜.书面汉语自动分词的现状和问题[J].情报学报,1989,8(2):125-133. 被引量：11

引证文献15

1张恒,杨文昭,屈景辉,卢虹冰,张亮,赵飞.基于词典和词频的中文分词方法[J].微计算机信息,2008,24(3):239-240. 被引量：19
2余希田,李丹亚,胡铁军.汉语自动分词歧义处理研究[J].医学信息学杂志,2007,28(6):541-544.
3陈平,刘晓霞,李亚军.基于字典和统计的分词方法[J].计算机工程与应用,2008,44(10):144-146. 被引量：13
4王东波,陈小荷,年洪东.基于条件随机场的有标记联合结构自动识别[J].中文信息学报,2008,22(6):3-7. 被引量：9
5刘智文.利用系统整合提高中文分词精度的方法研究[J].现代计算机,2009,15(10):7-10.
6李月伦,常宝宝.基于最大间隔马尔可夫网模型的汉语分词方法[J].中文信息学报,2010,24(1):8-14. 被引量：8
7王东波,苏新宁.英汉双语句子级平行语料库自动构建[J].现代图书情报技术,2009(12):47-51. 被引量：4
8周昆,胡学钢.一种基于本体论和规则匹配的中文人名识别方法[J].微计算机信息,2010,26(31):87-89. 被引量：5
9张硕果,汪成亮.结合CRFs的词典分词法[J].计算机系统应用,2010,19(11):115-118. 被引量：1
10李宏波.词典与统计相结合的中文分词算法研究[J].武汉理工大学学报（信息与管理工程版）,2010,32(6):907-909. 被引量：7

二级引证文献112

1陈强,丁腊春,王译,殷伟东.智能电子病历质控系统研究与应用[J].医学信息学杂志,2020,41(6):63-65. 被引量：16
2贺金龙,付立军,姚郑,吕鹏飞,黄徐胜.基于网格LSTM混合算法的地质领域用户意图识别[J].计算机系统应用,2020(10):44-52. 被引量：1
3赵薇.数字时代人文学研究的变革与超越——数字人文在中国[J].探索与争鸣,2021(6):191-206. 被引量：32
4梁媛,王东波,黄水清.面向人民日报语料的新闻自动摘要生成[J].知识管理论坛,2022(4):452-464. 被引量：1
5孙凯丽,邓沌华,李源,李妙,李洋.基于句内注意力机制多路CNN的汉语复句关系识别方法[J].中文信息学报,2020(6):9-17. 被引量：10
6成于思,施云涛.融合词典特征的Bi-LSTM-WCRF中文人名识别[J].中文信息学报,2020(4):69-76. 被引量：7
7李牧南,王良,赖华鹏.中文科技政策文本分类:增强的TextCNN视角[J].科技管理研究,2023,43(2):160-166. 被引量：5
8李对红,王裴岩 ,张桂平,张少阳.基于字簇的多模型中文分词方法研究[J].计算机应用研究,2020,37(2):355-359. 被引量：2
9热孜瓦姑丽·吾斯曼,艾孜尔古丽·玉素甫.论现代的维吾尔语情感分析方法进展[J].电脑知识与技术,2020,0(4):178-179.
10邱冰,皇甫娟.基于中文信息处理的古代汉语分词研究[J].微计算机信息,2008,24(24):100-102. 被引量：31

1史晓东,卢亚军.央金藏文分词系统[J].中文信息学报,2011,25(4):54-56. 被引量：30
2陈琳,何嘉.基于遗传神经算法优化的汉语分词模型[J].西南师范大学学报（自然科学版）,2007,32(4):90-93. 被引量：3
3沈达阳,孙茂松,黄昌宁.基于统计的汉语分词模型及实现方法[J].中文信息,1998,15(2):96-98. 被引量：6
4娄珽,宋柔,李卫亮,罗智勇.现代汉语分词系统通用接口设计与实现[J].中文信息学报,2001,15(5):1-7. 被引量：6
5何嘉,陈琳.基于神经网络汉语分词模型的优化[J].成都信息工程学院学报,2006,21(6):812-815. 被引量：4
6葛锐.汉语分词技术初探[J].软件,2013,34(3):140-141. 被引量：4
7沈达阳,孙茂松,黄昌宁.汉语分词系统中的信息集成和最佳路径搜索方法[J].中文信息学报,1997,11(2):34-47. 被引量：13
8人工智能[J].中国学术期刊文摘,2007,13(14):194-203.
9赵福君,黄厚宽,俞经善.基于期望的汉语分词模型的设计[J].哈尔滨船舶工程学院学报,1990,11(2):174-179.
10王起飞.基于神经网络的机器人独立关节控制[J].电气自动化,1995,17(2):10-12. 被引量：1

微计算机信息

2006年第10S期

浏览历史

内容加载中请稍等...

基于条件随机场的汉语分词系统被引量：15

参考文献7

二级参考文献1

共引文献1

同被引文献125

引证文献15

二级引证文献112

相关作者

相关机构

相关主题

浏览历史

基于条件随机场的汉语分词系统 被引量：15

参考文献7

二级参考文献1

共引文献1

同被引文献125

引证文献15

二级引证文献112

相关作者

相关机构

相关主题

浏览历史

基于条件随机场的汉语分词系统被引量：15