基于用字共现频率统计的外国译名自动识别被引量：1

Automatic identification of transliterated name based on co-occurrence frequency statistics of words

下载PDF

导出

摘要为了减少分词的负面效果,提出了基于用字共现频率统计的外国译名自动识别方法。对译名的用字特征进行了统计,提出译名共现字串的概念,并由译名用字表与汉语常用字表得到了非译名用字表。在上述工作的基础上定义了译名的边界,在边界定义的基础上设计了一种对分词错误的调整方法。对开放语料的测试结果表明,与最大词频分词算法相比,该算法在译名识别中的准确率、召回率、F值均有所提高。 To reduce the negative impact of segmentation, an automatic recognition algorithm for transliterated name recognition based on co-occurrence frequency statistics of words is presented. Firstly, the statistical features of word of transliterated name are summarized and then the concept of co-occurrence string is proposed. The character table of non-translated name is obtained through the character table of transliterated name and the commnon Chinese character table. Secondly, the boundary of transliterated name is defined based on these above. Finally, an adjustment method is designed to deal with errors of segmentation based on the definition of boundary. The result of experiment is satisfied in comparison with maximum word frequency segmentation algorithm. The recall rate, precision rate and F values of identification are enhanced.

作者陈阳赵跃华程显毅

机构地区江苏大学计算机科学与通信工程学院南通大学计算机科学与技术学院

出处《计算机工程与设计》 CSCD 北大核心 2012年第1期362-366,共5页 Computer Engineering and Design

基金国家自然科学基金项目(60702056)

关键词外国译名分词共现字串频率统计译名边界自然语言处理 transliterated name segmentation co-occurrence string frequency statistics boundary of transliterated name； natural language processing

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献14

1周蕾,朱巧明.基于统计和规则的未登录词识别方法研究[J].计算机工程,2007,33(8):196-198. 被引量：21
2郑强,刘齐军,王正华,朱云平.生物医学命名实体识别的研究与进展[J].计算机应用研究,2010,27(3):811-815. 被引量：25
3CHEN Wen-iiang, ZHANG Yu-jie, Hitoshi Isahara. Chinese named entity recognition with conditional random fields [C]. Proceeding of the Fifth SIGHAN Workshop on Chinese Lan- guage Proeessing, 2006:118-121.
4Tanabe L, Wilbur W J. A priority model for named entities[C]. Proc of Human Language Technology Conference. Mor- ristown: Association for Computational Linguistics, 2006: 33-40.
5GU Bao-hua. Recognizing nested named entities in GENIA cor- pus [C]. Proc of Human Language Technology Conference. Morristown: Association for Computational Linguistics, 2006: 112-113.
6张华平,刘群.基于角色标注的中国人名自动识别研究[J].计算机学报,2004,27(1):85-91. 被引量：104
7高红,黄德根,杨元生.中文文本中外国人名与中国人名同步识别方法[J].小型微型计算机系统,2006,27(4):715-719. 被引量：1
8方华,王振华,陆汝占,刘绍明.运用改进的分词方法进行外国译名识别的研究[J].计算机仿真,2005,22(3):217-220. 被引量：4
9黄昌宁,赵海.中文分词十年回顾[J].中文信息学报,2007,21(3):8-19. 被引量：250
10高永伟.名不经“传” 译有止境——谈英汉词典中的译名改进问题[J].上海翻译,2010(1):45-49. 被引量：4

二级参考文献75

1孙茂松.谈谈汉语分词语料库的一致性问题[J].语言文字应用,1999(2):90-93. 被引量：20
2陈小荷.自动分词中未登录词问题的一揽子解决方案[J].语言文字应用,1999(3):103-109. 被引量：26
3黄昌宁.中文信息处理中的分词问题[J].语言文字应用,1997(1):74-80. 被引量：83
4孙茂松,张磊.人机并存,“质”“量”合一—谈谈制定信息处理用汉语词表的策略[J].语言文字应用,1997(1):81-88. 被引量：7
5刘开瑛.现代汉语自动分词评测技术研究[J].语言文字应用,1997(1):103-108. 被引量：15
6郑家恒,刘开瑛.汉语姓名自动辨识初探[J].语言文字应用,1994(2):65-68. 被引量：4
7刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：198
8孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：101
9温滔,朱巧明,吕强.一种快速汉语分词算法[J].计算机工程,2004,30(19):119-120. 被引量：19
10贾自艳,史忠植.基于概率统计技术和规则方法的新词发现[J].计算机工程,2004,30(20):19-21. 被引量：28

共引文献415

1唐琳,郭崇慧,陈静锋.中文分词技术研究综述[J].数据分析与知识发现,2020,4(2):1-17. 被引量：44
2成于思,施云涛.融合词典特征的Bi-LSTM-WCRF中文人名识别[J].中文信息学报,2020(4):69-76. 被引量：7
3李对红,王裴岩 ,张桂平,张少阳.基于字簇的多模型中文分词方法研究[J].计算机应用研究,2020,37(2):355-359. 被引量：2
4王蔚,吴建明,刘磊.汉字的理据性[J].汉字文化,2024(5):129-133.
5宋凯丽,李云岭,姚露露.基于条件随机场的分词标注一体化地址解析方法[J].测绘地理信息,2021,46(S01):185-187. 被引量：4
6钱爱兵,江岚.基于改进TF-IDF的中文网页关键词抽取——以新闻网页为例[J].情报理论与实践,2008,31(6):945-950. 被引量：29
7张素香,高国洋,戚银城.基于条件随机场的中国人名识别方法[J].郑州大学学报（理学版）,2009,41(2):40-43. 被引量：7
8于江德,谷川,葛文英,樊孝忠.一种基于字和子串联合标注的汉语分词方法[J].山西大学学报（自然科学版）,2011,34(3):357-362. 被引量：2
9徐艳华.新词语结构分析在自动分词中的作用[J].烟台职业学院学报,2007,13(4):57-63.
10罗安,王勇,张福浩,刘纪平.基于角色标注的中文POI名称语义分类方法[J].测绘通报,2012(S1):521-524. 被引量：3

同被引文献9

1吴绍春,吴耿锋,王炜,蔚赵春.寻找地震相关地区的时间序列相似性匹配算法[J].软件学报,2006,17(2):185-192. 被引量：25
2HU Mingsheng, J]A Zhijuan, DONG Xiangying, et al. A his- torical epidemic classification method based on simulated annea- ling and ACO [-J]. International Journal of Advancements in Computing Technology, 2011, 3 (11): 47-54.
3HU Mingsheng, LV Guoning. Antieollision algorithm for RFID based on dynamic packet query tree [J]. Advanced Materials Research, 2011, 159 (11): 550-555.
4季学伟,翁文国,赵前胜.突发事件链的定量风险分析方法[J].清华大学学报（自然科学版）,2009(11):1749-1752. 被引量：25
5黄锐,桑农,罗大鹏,刘乐元.融合感知一致程度的图像分割评价方法[J].华中科技大学学报（自然科学版）,2010,38(10):52-56. 被引量：6
6刘兴林,郑启伦,马千里.基于词共现有向图的中文合成词提取算法[J].计算机工程,2011,37(23):177-180. 被引量：4
7常鹏,冯楠,马辉.一种基于词共现的文档聚类算法[J].计算机工程,2012,38(2):213-214. 被引量：15
8贾志娟,胡明生,刘思.基于蚁群聚类的历史灾害分级方法[J].计算机应用,2012,32(4):1030-1032. 被引量：5
9胡明生,贾志娟,刘思,洪流.基于蚁群优化的历史灾害关联分析方法[J].计算机应用与软件,2012,29(10):62-64. 被引量：4

引证文献1

1胡明生,贾志娟,雷利利,洪流.基于共现分析的历史自然灾害关联研究[J].计算机工程与设计,2013,34(6):2015-2019. 被引量：6

二级引证文献6

1贾遂民,胡明生,贾志娟.基于复杂网络的历史地震时空分布及异常分析[J].计算机与现代化,2014(12):1-5.
2魏萌,雷利利,胡明生,贾志娟.基于时间序列的历史地震区域的关联研究[J].河南科学,2015,33(5):801-805.
3李晓璐,于昕明,雷方舒,郗艳红,毛军,朱广宇.城市轨道交通系统灾害链网络模型构建与评价[J].中国安全科学学报,2018,28(6):179-184. 被引量：15
4周亮,胡坤鹏,唐硕,张平,张治钢,范立冬,肖南,李曙光.基于文本挖掘方法的突发事件与医学救援装备关联研究[J].中国医疗设备,2018,33(3):154-158. 被引量：4
5郭文星,郭琳,李长宏.运用图表技术对非煤矿山企业生产安全事故进行统计分析的方法研究[J].劳动保护,2023(2):94-97.
6仇林遥,郑作亚,周彬,柳罡,陆洲.地理时空数据关联与聚合服务方法综述[J].中国电子科学研究院学报,2019,0(9):897-902. 被引量：4

1方华,王振华,陆汝占,刘绍明.运用改进的分词方法进行外国译名识别的研究[J].计算机仿真,2005,22(3):217-220. 被引量：4
2周超,严馨,余正涛,洪旭东,线岩团.融合词频特性及邻接变化数的微博新词识别[J].山东大学学报（理学版）,2015,50(3):6-10. 被引量：10
3微博带来了什么?[J].百科知识,2011(6):1-1.
4黄明志,闫大顺.页面字符编码的分析及其应用[J].仲恺农业工程学院学报,2009,22(3):41-43. 被引量：1
5聂于清.平板电脑在小学英语教学中的应用[J].中小学电教（下）,2016,0(11):58-58. 被引量：3
6李学俭.多套信息发布系统的整合方案[J].计算机应用与软件,2012,29(12):259-261. 被引量：4
7青锋.网络招聘的怪圈[J].互联网天地,2012(7):45-46. 被引量：2
8何升,罗军勇,刘琰.基于协议首部的字节频率统计特征发现方法[J].计算机工程,2015,41(2):272-277. 被引量：2
9张素香,张素贤,王小捷.一种人名识别方法的研究[J].计算机工程与应用,2008,44(21):157-161. 被引量：1
10吕雅娟,赵铁军,杨沐昀,于浩,李生.基于分解与动态规划策略的汉语未登录词识别[J].中文信息学报,2001,15(1):28-33. 被引量：43

计算机工程与设计

2012年第1期

浏览历史

内容加载中请稍等...

基于用字共现频率统计的外国译名自动识别被引量：1

参考文献14

二级参考文献75

共引文献415

同被引文献9

引证文献1

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

基于用字共现频率统计的外国译名自动识别 被引量：1

参考文献14

二级参考文献75

共引文献415

同被引文献9

引证文献1

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

基于用字共现频率统计的外国译名自动识别被引量：1