新能源汽车领域中文术语抽取方法被引量：10

A Chinese Term Extraction System in New Energy Vehicles Domain

导出

摘要【目的】为提高新能源汽车领域中文术语抽取结果的准确率和召回率,提出一种适合该领域的术语抽取方法。【方法】在总结前人工作基础上,提出利用条件随机场模型作为抽取模型,选取词、词长、词性、依存关系、词典位置、停用词等特征作为特征模板。【结果】实验结果正确率为93.12%,召回率为90.47%。正确率比Baseline方法提高7.73%。【局限】该方法只提高较短术语抽取结果的正确率。【结论】依存关系作为条件随机场模型的一项特征可以提高新能源汽车领域中文术语抽取结果的正确率和召回率。 [Objective] The problem of Chinese term extraction in new energy vehicles domain is a key problem which needs a special method to improve the precision and recall rate. [Methods] This paper uses conditional random fields model as extraction model, select the word, word length, part of speech, dependencies, dictionary location, stop words and other characteristics as the feature templates. [Results] Experimental results show that the precision and recall are 93.12% and 90.47% respectively. This method improves the performance by 7.73% when compared with the baseline in terms of accuracy. [Limitations] This method can only improve part of the accuracy of the results. [Conclusions] Dependency as one of the conditional random fields mode/ features can improve the precision and recall rate in new energy vehicles domain.

作者何宇吕学强徐丽萍

机构地区北京信息科技大学网络文化与数字传播北京市重点实验室北京城市系统工程研究中心

出处《现代图书情报技术》 CSSCI 2015年第10期88-94,共7页 New Technology of Library and Information Service

基金国家自然科学基金项目"基于本体的专利自动标引研究"(项目编号:61271304) 北京市教委科技发展计划重点项目暨北京市自然科学基金B类重点项目"面向领域的互联网多模态信息精准搜索方法研究"(项目编号:KZ201311232037) 北京市科学技术研究院科技创新工程项目"基于CGE-TIMES模型的交通对大气环境综合影响评价方法研究"(项目编号:PXM2015_178215_000008)的研究成果之一

关键词术语抽取新能源汽车领域条件随机场依存句法关系 Term extraction New energy vehicles Conditional random fields Dependency syntactic relations

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献12

1国家知识产权局专利局专利文献部.专利文献与信息检索[M].北京:知识产权出版社,2013.
2周浪,史树敏,冯冲,黄河燕.基于多策略融合的中文术语抽取方法[J].情报学报,2010,29(3):460-467. 被引量：28
3梁颖红,张文静,张有承.C值和互信息相结合的术语抽取[J].计算机应用与软件,2010,27(4):108-110. 被引量：7
4屈鹏,王惠临.面向信息分析的专利术语抽取研究[J].图书情报工作,2013,57(1):130-135. 被引量：15
5董丽丽,李欢,张翔,刘闫锋.一种中文领域概念词自动提取方法研究[J].计算机工程与应用,2014,50(6):127-131. 被引量：5
6郭剑毅,薛征山,余正涛,张志坤,张宜浩,姚贤明.基于层叠条件随机场的旅游领域命名实体识别[J].中文信息学报,2009,23(5):47-52. 被引量：37
7施水才,王锴,韩艳铧,吕学强.基于条件随机场的领域术语识别研究[J].计算机工程与应用,2013,49(10):147-149. 被引量：14
8章成志.基于多层术语度的一体化术语抽取研究[J].情报学报,2011,30(3):275-285. 被引量：19
9唐涛,周俏丽,张桂平.统计与规则相结合的术语抽取[J].沈阳航空航天大学学报,2011,28(5):71-74. 被引量：7
10Lafferty J D, McCallum A, Pereira F C N. Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data [C]. In: Proceedings of the 18th International Conference on Machine Learning (ICML'01). San Francisco: Morgan Kaufmann Publishers Inc., 2001: 282-289.

二级参考文献119

1张素香,高国洋,戚银城.基于条件随机场的中国人名识别方法[J].郑州大学学报（理学版）,2009,41(2):40-43. 被引量：7
2吕学强,张乐,黄志丹,胡俊峰.基于散列技术的快速子串归并算法[J].复旦学报（自然科学版）,2004,43(5):948-951. 被引量：4
3侯汉清 ,章成志 ,郑红 .Web概念挖掘中标引源加权方案初探[J].情报学报,2005,24(1):87-92. 被引量：32
4张锋,许云,侯艳,樊孝忠.基于互信息的中文术语抽取系统[J].计算机应用研究,2005,22(5):72-73. 被引量：36
5刘非凡,赵军,吕碧波,徐波,于浩,夏迎炬.面向商务信息抽取的产品命名实体识别研究[J].中文信息学报,2006,20(1):7-13. 被引量：47
6俞鸿魁,张华平,刘群,吕学强,施水才.基于层叠隐马尔可夫模型的中文命名实体识别[J].通信学报,2006,27(2):87-94. 被引量：159
7周俊生,戴新宇,尹存燕,陈家骏.基于层叠条件随机场模型的中文机构名自动识别[J].电子学报,2006,34(5):804-809. 被引量：112
8张锋,樊孝忠,许云.Chinese Term Extraction Based on PAT Tree[J].Journal of Beijing Institute of Technology,2006,15(2):162-166. 被引量：2
9王浩畅,赵铁军.基于SVM的生物医学命名实体的识别[J].哈尔滨工程大学学报,2006,27(B07):570-574. 被引量：18
10李中国,刘颖.边界模板和局部统计相结合的中国人名识别[J].中文信息学报,2006,20(5):44-50. 被引量：13

共引文献124

1刘鹏博,车海燕,陈伟.知识抽取技术综述[J].计算机应用研究,2010,27(9):3222-3226. 被引量：15
2谷俊,王昊.基于领域中文文本的术语抽取方法研究[J].现代图书情报技术,2011(4):29-34. 被引量：22
3郭剑毅,雷春雅,余正涛,苏磊,赵君,田维.基于信息熵的半监督领域实体关系抽取研究[J].山东大学学报（工学版）,2011,41(4):7-12. 被引量：3
4钟军,田生伟,禹龙.Web文本中维吾尔语领域术语的自动发现[J].计算机应用,2012,32(2):407-410. 被引量：1
5邹俊杰,余正涛,刘跃红,宗焕云,苏磊.融合领域命名实体识别的查询扩展方法研究[J].计算机工程与设计,2012,33(3):1229-1233. 被引量：1
6郭剑毅,李真,余正涛,张志坤.领域本体概念实例、属性和属性值的抽取及关系预测[J].南京大学学报（自然科学版）,2012,48(4):383-389. 被引量：32
7何琳.基于多策略的领域本体术语抽取研究[J].情报学报,2012,31(8):798-804. 被引量：16
8祝清松,冷伏海.自动术语识别存在的问题及发展趋势综述[J].图书情报工作,2012,56(18):104-109. 被引量：16
9韩红旗,安小米.C-value值和unithood指标结合的中文科技术语抽取[J].图书情报工作,2012,56(19):85-89. 被引量：10
10赵捷,苏静.基于知识元和MARTIF的术语集成方法研究[J].图书情报工作,2012,56(22):16-20. 被引量：2

同被引文献111

1葛煦,卢宝华,杨湘华.谈高校科技发展中专利文献的利用[J].技术与创新管理,2005,26(1):68-70. 被引量：6
2贾志琦,邵曰剑.有效利用专利文献提高企业技术创新能力[J].山西科技,2008(1):91-93. 被引量：12
3郭剑毅,薛征山,余正涛,张志坤,张宜浩,姚贤明.基于层叠条件随机场的旅游领域命名实体识别[J].中文信息学报,2009,23(5):47-52. 被引量：37
4周浪,史树敏,冯冲,黄河燕.基于多策略融合的中文术语抽取方法[J].情报学报,2010,29(3):460-467. 被引量：28
5赵妍妍,秦兵,刘挺.文本情感分析[J].软件学报,2010,21(8):1834-1848. 被引量：544
6谷俊,王昊.基于领域中文文本的术语抽取方法研究[J].现代图书情报技术,2011(4):29-34. 被引量：22
7陈传夫,马浩琴.图书情报学现实研究中科学方法应用的调查分析——以2010年的期刊论文为样本[J].图书馆论坛,2011,31(6):32-37. 被引量：14
8陈颖,张晓林.基于特征度和词汇模型的专利技术功效矩阵结构生成研究[J].现代图书情报技术,2012(2):53-59. 被引量：14
9陆伟,鞠源,张晓娟,吴丹.产品命名实体特征选择与识别研究[J].图书情报知识,2012,29(3):4-12. 被引量：13
10韩红旗,安小米.C-value值和unithood指标结合的中文科技术语抽取[J].图书情报工作,2012,56(19):85-89. 被引量：10

引证文献10

1赵东玥,杜永萍,石崇德.基于BLSTM的科技文献术语抽取方法[J].情报工程,2018,4(1):67-74. 被引量：9
2王健,殷旭,吕学强,徐丽萍.基于CRFs的专利文献领域术语抽取方法[J].计算机工程与设计,2019,40(1):279-284. 被引量：11
3马建红,张亚梅,姚爽,张炳斐,郭昌宏.基于BLSTM＿attention＿CRF模型的新能源汽车领域术语抽取[J].计算机应用研究,2019,36(5):1385-1389. 被引量：16
4肖连杰,孟涛,王伟,吴志祥.基于深度学习的情报分析方法识别研究——以安全情报领域为例[J].数据分析与知识发现,2019,3(10):20-28. 被引量：15
5余本功,范招娣.面向自然语言处理的条件随机场模型研究综述[J].信息资源管理学报,2020,10(5):96-111. 被引量：18
6文益民,杨鹏,文博奚,蔡翔.基于深度学习的中文网络招聘文本中的技能词抽取方法[J].桂林电子科技大学学报,2020,40(4):338-348. 被引量：4
7李贞贞,钟永恒,王辉,刘佳,孙源.基于深度学习与统计信息的领域术语抽取方法研究[J].数据与计算发展前沿,2022,4(2):87-98. 被引量：3
8孙甜,陈海涛,吕学强,游新冬.新能源专利文本术语抽取研究[J].小型微型计算机系统,2022,43(5):950-956. 被引量：4
9李育贤,吕学强,游新冬.融合字形信息的头尾指针网络术语抽取模型[J].北京信息科技大学学报（自然科学版）,2022,37(3):74-81.
10刘春江,李姝影,刘自强,方曙.面向多维技术功效分析的专利技术功效矩阵构建方法研究[J].情报理论与实践,2023,46(12):167-174.

二级引证文献72

1赵梓博,王昊,刘友华,张卫,孟镇.多任务环境下融合迁移学习的新冠疫情新闻要素识别研究[J].知识管理论坛,2021(1):2-13. 被引量：1
2吕璐成,罗文馨,许景龙,王莉莉,马丽婧,赵亚娟.专利情报方法、工具、应用研究进展及新技术应用趋势[J].情报学进展,2020(1):235-278. 被引量：9
3唐晓波,王琼赋,牟昊.基于词共现与词向量的概念层次关系自动抽取模型——以学术论文评价领域为例[J].情报科学,2022,40(10):3-11. 被引量：3
4闫博.基于HanLP关键词抽取与句法分析的图谱构建[J].电子元器件与信息技术,2022,6(9):77-80. 被引量：3
5苏晓红.建立统一的国债回购市场[J].金融理论与实践,2000(3):18-19.
6张若彬,刘嘉勇,何祥.基于BLSTM-CRF模型的安全漏洞领域命名实体识别[J].四川大学学报（自然科学版）,2019,56(3):469-475. 被引量：16
7胡小荣,姚长青,高影繁.融合多策略的短语识别方法[J].情报科学,2019,37(6):49-54. 被引量：1
8邢玉艳,刘耀,刘茹.基于schema的信息安全标准资源解析研究[J].情报工程,2019,5(5):108-118. 被引量：3
9王思丽,祝忠明,刘巍,杨恒.基于深度学习的领域本体概念自动获取方法研究[J].情报理论与实践,2020,43(3):145-152. 被引量：17
10李博闻,章成志.我国情报学研究方法体系构建研究的转向突破[J].情报理论与实践,2020,43(6):37-43. 被引量：16

1刘剑,唐慧丰,刘伍颖.一种基于统计技术的中文术语抽取方法[J].中国科技术语,2014,16(5):10-14. 被引量：15
2周波,杨朝峰.基于二分网络模型的专利权人推荐研究——以新能源汽车领域为例[J].情报工程,2016,2(4):56-68. 被引量：2
3泛华测控力邀同济马天才博士共同探讨汽车电子测试技术[J].电子测试,2008,19(6):90-90.
4殷希红,乔晓东,张运良.基于复杂网络的知识组织系统概念社区发现[J].数字图书馆论坛,2014(8):45-51. 被引量：2
5廖祥文,陈兴俊,魏晶晶,陈国龙,程学旗.基于多层关系图模型的中文评价对象与评价词抽取方法[J].自动化学报,2017,43(3):462-471. 被引量：15
6首届北京莱姆电子2010华南区客户技术交流会圆满成功[J].电气时代,2011(1):80-80.
7首届北京莱姆电子2010华南区客户技术交流会圆满成功[J].电子元器件应用,2011,13(1).
8首届北京莱姆电子2010华南区客户技术交流会圆满成功[J].电源世界,2011(1):12-12.
9张锋,许云,侯艳,樊孝忠.基于互信息的中文术语抽取系统[J].计算机应用研究,2005,22(5):72-73. 被引量：36
10季天也.目前全国只有3座美式接口充电站特斯拉在中国成富豪玩具?[J].环境与生活,2014,0(6):14-17.

现代图书情报技术

2015年第10期

浏览历史

内容加载中请稍等...

新能源汽车领域中文术语抽取方法被引量：10

参考文献12

二级参考文献119

共引文献124

同被引文献111

引证文献10

二级引证文献72

相关作者

相关机构

相关主题

浏览历史

新能源汽车领域中文术语抽取方法 被引量：10

参考文献12

二级参考文献119

共引文献124

同被引文献111

引证文献10

二级引证文献72

相关作者

相关机构

相关主题

浏览历史

新能源汽车领域中文术语抽取方法被引量：10