SVM与规则相结合的中文地名自动识别被引量：32

Identifying Chinese Place Names Based on Support Vector Machines and Rules

下载PDF

导出

摘要在分析中文文本中地名特点的基础上,提出了一种支持向量机(SVM)与规则相结合的中文地名自动识别方法:按字抽取特征向量的属性,然后将这些属性转换成二进制向量并建立训练集,采用多项式Kernel函数,得到SVM识别地名的机器学习模型;通过对错误识别结果的分析,构建规则库对识别结果进行后处理,弥补了机器学习模型获取知识不够全面导致召回率偏低的不足。实验表明,用SVM与规则相结合的机制识别中文文本中的地名是有效的:系统开式召回率、精确率和F-值分别达89.57%、93.52%和91.50%。 By analyzing the characteristics of place names in Chinese texts, a method of automatic recognition of Chinese place names is presented, which combining support vector machines （SVMs） with rules, Firstly, feature vectors based on characters are extracted, and transferred into binary vectors. A training set is established, and the machine learning models for automatic identification of Chinese place names are obtained using polynomial kernel functions. Then, through careful error analysis, a rulebase is constructed and a post -processing step based on it is used, to overeome the shortcoming of low recall of machine learning model. The results show that the method is efficient for identifying Chinese place names. In open test, the recall, precision and F-measure reach 89. 57% , 93.52% and 91.50% respectively.

作者李丽双黄德根陈春荣杨元生

机构地区大连理工大学计算机科学与工程系

出处《中文信息学报》 CSCD 北大核心 2006年第5期51-57,共7页 Journal of Chinese Information Processing

基金国家自然科学基金资助项目(60373095 60373096)

关键词计算机应用中文信息处理中文地名识别支持向量机机器学习基于规则的后处理 computer application Chinese information processing support vector machines Chinese place names recognition machine learning rule-based post-processing

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献12

1吕雅娟,赵铁军,杨沐昀,于浩,李生.基于分解与动态规划策略的汉语未登录词识别[J].中文信息学报,2001,15(1):28-33. 被引量：43
2黄德根,杨元生,王省,张艳丽,钟万勰.基于统计方法的中文姓名识别[J].中文信息学报,2001,15(2):31-37. 被引量：34
3王振华,孔祥龙,陆汝占,刘绍明.结合决策树方法的中文姓名识别[J].中文信息学报,2004,18(6):10-15. 被引量：15
4沈达阳孙茂松黄昌宁.中文地名的自动辨识[A]..计算语言学进展与应用[M].北京:清华大学出版社,1995..
5谭红叶,郑家恒,刘开瑛.中国地名自动识别系统的设计与实现[J].计算机工程,2002,28(8):128-129. 被引量：16
6黄德根,岳广玲,杨元生.基于统计的中文地名识别[J].中文信息学报,2003,17(2):36-41. 被引量：49
7谭红叶,郑家恒,刘开瑛.基于变换的中国地名自动识别研究(英文)[J].软件学报,2001,12(11):1608-1613. 被引量：23
8VAPNIK V N.The nature of statistical learning[M].Berlin:Springer,1995.
9Vapnik,V.N..Statistical Learning Theory[M].New York:John Wiley & Sons,1998.
10陈春荣.基于SVM的中文地名识别[D].大连:大连理工大学,2005.

二级参考文献17

1孙茂松,黄昌宁,高海燕,方捷.中文姓名的自动辨识[J].中文信息学报,1995,9(2):16-27. 被引量：87
2吴胜远.一种汉语分词方法[J].计算机研究与发展,1996,33(4):306-311. 被引量：49
3孙茂松,黄昌宁,邹嘉彦,陆方,沈达阳.利用汉字二元语法关系解决汉语自动分词中的交集型歧义[J].计算机研究与发展,1997,34(5):332-339. 被引量：66
4谭红叶郑家恒等.中国地名的自动识别方法研究.计算语言学文集[M].北京:清华大学出版社,1999..
5谭红叶郑家恒等.基于变换的中国地名识别方法研究.第六届人工智能会议论文集[M].,2001..
6沈达阳孙茂松黄昌宁.中文地名的自动识别[A]..计算语言学进展与应用[C].北京:清华大学出版社,1995..
7Tan Hongye，Proc Computational Linguistics，1999年，174页
8中国地名委员会，中国地名录，1994年
9国家测绘局地名研究所.中国地名录[M].北京:中国地图出版社,1997.1-318.
10Michael Fleischman, Eduard Hovy, Fine Grained Classification of Named Entities[A] , the 19th international Conference on Computational Linguistics (COLING2002), 2002, 267- 273.

共引文献138

1周蕾,朱巧明,李培峰.一种基于统计和规则的未登录词识别方法[J].南京大学学报（自然科学版）,2005,41(z1):819-825. 被引量：1
2王睿,张洁,张由仪,于禛,姚天昉.基于混合模型的中文命名实体抽取系统[J].清华大学学报（自然科学版）,2005,45(S1):1908-1914. 被引量：10
3张素香,高国洋,戚银城.基于条件随机场的中国人名识别方法[J].郑州大学学报（理学版）,2009,41(2):40-43. 被引量：7
4杨霞,黄陈英.基于HMM的中文姓名识别方法研究[J].硅谷,2009,2(3).
5郑炜冬.多种方法融合的中文自动分词系统的设计与实现[J].韩山师范学院学报,2009,30(6):37-43.
6张长利,赫枫龄,左万利.一种基于后缀数组的无词典分词方法[J].吉林大学学报（理学版）,2004,42(4):548-553. 被引量：14
7张春霞,郝天永.汉语自动分词的研究现状与困难[J].系统仿真学报,2005,17(1):138-143. 被引量：60
8邓宏涛.中文自动分词系统的设计模型[J].计算机与数字工程,2005,33(4):138-140. 被引量：13
9王源媛,何中市.基于词性探测的中文姓名识别算法[J].计算机科学,2005,32(4):84-86. 被引量：2
10李丽双,黄德根,陈春荣,杨元生.用支持向量机进行中文地名识别的研究[J].小型微型计算机系统,2005,26(8):1416-1419. 被引量：10

同被引文献329

1张素香,高国洋,戚银城.基于条件随机场的中国人名识别方法[J].郑州大学学报（理学版）,2009,41(2):40-43. 被引量：7
2华林甫.论先秦时期我国地名学的特点[J].湖北大学学报（哲学社会科学版）,1996,23(4):104-110. 被引量：5
3HE Li1,2, LI ZhengLin1,3 & PENG ZhaoHui1 1 National Laboratory of Acoustics, Institute of Acoustics, Chinese Academy of Sciences, Beijing 100190, China,2 Institute of Geology and Geophysics, Chinese Academy of Sciences, Beijing 100029, China,3 NanHai Laboratory of Acoustics, Institute of Acoustics, Chinese Academy of Sciences, Haikou 570206, China.Ambient noise near the sea-route[J].Science China(Physics,Mechanics & Astronomy),2009,52(1):40-45. 被引量：5
4陈桥驿.论地名重合(续)[J].中国地名,1999,0(3):6-7. 被引量：1
5陈载清,石俊生,白凤翔.基于模糊粗糙集的图像自动分类研究[J].吉林大学学报（工学版）,2013,43(S1):209-212. 被引量：3
6王凌云,李琦,江洲.国内地理编码数据库系统开发与研究[J].计算机工程与应用,2004,40(21):167-168. 被引量：33
7黄德根,马玉霞,杨元生.基于互信息的中文姓名识别方法[J].大连理工大学学报,2004,44(5):744-748. 被引量：12
8黄发良,钟智.用于分类的支持向量机[J].广西师范学院学报（自然科学版）,2004,21(3):75-78. 被引量：14
9李荣陆,王建会,陈晓云,陶晓鹏,胡运发.使用最大熵模型进行中文文本分类[J].计算机研究与发展,2005,42(1):94-101. 被引量：96
10徐凤亚,罗振声.文本自动分类中特征权重算法的改进研究[J].计算机工程与应用,2005,41(1):181-184. 被引量：56

引证文献32

1蔡华利,刘鲁,李红.基于规则推理的突发事件发生地点识别研究[J].情报学报,2011,30(2):219-224. 被引量：8
2李玉森,张雪英,袁正午.面向GIS的地理命名实体识别研究[J].重庆邮电大学学报（自然科学版）,2008,20(6):719-724. 被引量：10
3肖磊.《左传》地名研究初探[J].文教资料,2009(18):204-207. 被引量：4
4高国洋,戚银城,潘德锋.基于条件随机场与规则相结合的中文地名识别[J].电脑开发与应用,2009,22(8):26-28. 被引量：2
5李诺,张全.利用地名用字分析的中文地名识别处理[J].计算机工程与应用,2009,45(28):230-232. 被引量：7
6唐旭日,陈小荷,许超,李斌.基于篇章的中文地名识别研究[J].中文信息学报,2010,24(2):24-32. 被引量：18
7唐旭日,陈小荷,张雪英.中文文本的地名解析方法研究[J].武汉大学学报（信息科学版）,2010,35(8):930-935. 被引量：41
8滕青青,吉久明,郑荣廷,李楠.基于文献的中文命名实体识别算法适用性分析研究[J].情报杂志,2010,29(9):157-161. 被引量：9
9佘俊,张学清.音乐命名实体识别方法[J].计算机应用,2010,30(11):2928-2931. 被引量：8
10朱锁玲,包平.方志类古籍地名识别及系统构建[J].中国图书馆学报,2011,37(3):118-124. 被引量：32

二级引证文献266

1王莎莎.教育语言学下思想政治理论课打开“文本空间”的思考[J].中学政治教学参考,2021(24):90-93.
2孙星恺,王晓,陆浩.面向活动的网络媒体监测与建模分析:IVFC案例解析[J].智能科学与技术学报,2019,1(4):352-368. 被引量：1
3曹艳琴.基于深度学习的英语自然语言处理系统[J].系统仿真技术,2021,17(4):285-288. 被引量：1
4赵薇.数字时代人文学研究的变革与超越——数字人文在中国[J].探索与争鸣,2021(6):191-206. 被引量：33
5赵梓博,王昊,刘友华,张卫,孟镇.多任务环境下融合迁移学习的新冠疫情新闻要素识别研究[J].知识管理论坛,2021(1):2-13. 被引量：1
6范华,翁利国,周艳,姜川,孙涛.基于Bi-LSTM和TFIDF的工单事件提取[J].电脑知识与技术,2020,0(4):291-293.
7李秀茹,王晓,李朋朋,李绪红,罗安.Word2vec和支持向量机的POI自动分类方法[J].测绘科学,2022,47(6):195-203. 被引量：5
8苏祺,胡韧奋,诸雨辰,严承希,王军.古籍数字化关键技术评述[J].数字人文研究,2021,1(3):83-88. 被引量：14
9蔡华利,刘鲁,李红.基于规则推理的突发事件发生地点识别研究[J].情报学报,2011,30(2):219-224. 被引量：8
10佘俊,张学清.音乐命名实体识别方法[J].计算机应用,2010,30(11):2928-2931. 被引量：8

1李丽双,党延忠,廖文平,黄德根,张颖.CRF与规则相结合的中文地名识别[J].大连理工大学学报,2012,52(2):285-289. 被引量：17
2代翠,周俏丽,蔡东风,杨洁.统计和规则相结合的汉语最长名词短语自动识别[J].中文信息学报,2008,22(6):110-115. 被引量：16
3高红,黄德根,杨元生.汉语自动分词中中文地名识别[J].大连理工大学学报,2006,46(4):576-581. 被引量：10
4高国洋,戚银城,潘德锋.基于条件随机场与规则相结合的中文地名识别[J].电脑开发与应用,2009,22(8):26-28. 被引量：2
5李丽双,黄德根,陈春荣,杨元生.用支持向量机进行中文地名识别的研究[J].小型微型计算机系统,2005,26(8):1416-1419. 被引量：10
6林雄鹰,黄宇光.基于规则和混合统计模型的中文地名识别研究[J].高性能计算技术,2012,0(1):31-35.
7孙虹,陈俊杰.双层CRF与规则相结合的中文地名识别方法研究[J].计算机应用与软件,2014,31(11):175-177. 被引量：9
8王凡秀.基于条件随机场的中文地名识别[J].中国西部科技,2008,7(28):8-8.
9邱莎,阿圆,王付艳,丁海燕.基于统计的中文地名自动识别研究[J].计算机技术与发展,2011,21(11):35-38. 被引量：13
10黄德根,岳广玲,杨元生.基于统计的中文地名识别[J].中文信息学报,2003,17(2):36-41. 被引量：49

中文信息学报

2006年第5期

浏览历史

内容加载中请稍等...

SVM与规则相结合的中文地名自动识别被引量：32

参考文献12

二级参考文献17

共引文献138

同被引文献329

引证文献32

二级引证文献266

相关作者

相关机构

相关主题

浏览历史

SVM与规则相结合的中文地名自动识别 被引量：32

参考文献12

二级参考文献17

共引文献138

同被引文献329

引证文献32

二级引证文献266

相关作者

相关机构

相关主题

浏览历史

SVM与规则相结合的中文地名自动识别被引量：32