基于多策略融合的专利术语自动抽取被引量：4

PATENT TERM AUTO-EXTRACTION BASED ON MULTI-STRATEGY INTEGRATION

下载PDF

导出

摘要专利术语自动抽取是知识抽取与文本挖掘的关键环节。在构建专利文献停用词表以及提取特定规则的基础上,抽取候选专利术语;通过分析专利术语与其所在句子的关联关系、相邻专利术语之间的影响以及常识性词语对专利术语抽取的干扰,分别提出基于PageRank思想的STRank权重计算方法、专利术语区别度计算方法以及知网义原信息降权方法,并融合上述方法对专利术语进行抽取。采用传感器领域的专利文献进行实验,在top-1400、top-1600级别上正确率为80.5%、79.7%,相对比CS+CC+CD方法分别提高了11.4%、9.5%。实验结果证明该多策略融合方法的有效性。 Patent terms auto-extraction plays an important role in knowledge extraction and text mining. In this paper we extract candidate patent terms on the basis of constructing the stop-words inventory of patent literatures and specific rules extraction. Through analysing the associated relationship between patent terms and the sentences where they are, the influences between the adjacent patent terms and the interference of general words on patent terms extraction, we propose respectively the PageRank idea-based STRank weight calculation algorithm, the patent terms distinction computation technique and the weight-dropping method using Hownet sememe information, the above methods are then integrated to extract the patent terms. Patent literatures of sensor field are chosen for experiment, the precisions of top-1400 and top-1600 level are 80.5% and 79. 7% respectively, increasing 11. 4% and 9.5% in contrast to the result of CS ＋ CC ＋ CD method. The experimental results prove the effectiveness of this multi-strategy integration method.

作者周绍钧吕学强李卓都云程

机构地区北京信息科技大学网络文化与数字传播北京市重点实验室

出处《计算机应用与软件》 CSCD 2015年第2期28-32,共5页 Computer Applications and Software

基金国家自然科学基金项目(61171159 61271304) 北京市教委科技发展计划重点项目暨北京市自然科学基金B类重点项目(KZ201311232037)

关键词专利术语术语抽取 PAGERANK 术语区别度义原信息 Patent term Term extraction PageRank Term distinction Sememe information

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献13

1王卫民,贺冬春,符建辉.基于种子扩充的专业术语识别方法研究[J].计算机应用研究,2012,29(11):4105-4107. 被引量：6
2Justeson J S, Katz S M. Technical terminology : some linguists properties and an algorithm for identification in text [ J ]. Natural Language Engi- neering, 1995,1 ( 1 ) :9 - 27.
3李超,王会珍,朱慕华,张俐,朱靖波.基于领域类别信息C-value的多词串自动抽取[J].中文信息学报,2010,24(1):94-98. 被引量：7
4陈士超,郁滨.面向术语抽取的双阈值互信息过滤方法[J].计算机应用,2011,31(4):1070-1073. 被引量：10
5梁颖红,张文静,张有承.C值和互信息相结合的术语抽取[J].计算机应用与软件,2010,27(4):108-110. 被引量：7
6刘豹,张桂平,蔡东风.基于统计和规则相结合的科技术语自动抽取研究[J].计算机工程与应用,2008,44(23):147-150. 被引量：36
7赵延平,曹存根,谢丽聪.基于CRFs和领域规则的业务名称识别[J].计算机工程,2011,37(11):200-202. 被引量：3
8粟超.基于排序集成的自动术语识别方法[J].计算机应用与软件,2012,29(1):196-198. 被引量：4
9陈宇,朱建锋,吴毅坚,赵文耘.一种基于领域本体的新术语扩充方法[J].计算机工程,2011,37(7):24-27. 被引量：8
10Yang Yuhang, Qin Lu ,Tiejun Zhao. Chinese Term Extraction Using Min- imal Resources[ C]//The 22nd Int. Conf. on Computational Linguistics ( Coling 2008) ,Manchester :2008:1033 - 1040.

二级参考文献82

1刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：198
2张锋,许云,侯艳,樊孝忠.基于互信息的中文术语抽取系统[J].计算机应用研究,2005,22(5):72-73. 被引量：36
3杜波,田怀凤,王立,陆汝占.基于多策略的专业领域术语抽取器的设计[J].计算机工程,2005,31(14):159-160. 被引量：26
4凌祺,樊孝忠.领域词汇自动获取的研究[J].微机发展,2005,15(8):148-150. 被引量：6
5朱靖波,陈文亮.基于领域知识的文本分类[J].东北大学学报（自然科学版）,2005,26(8):733-735. 被引量：12
6俞鸿魁,张华平,刘群,吕学强,施水才.基于层叠隐马尔可夫模型的中文命名实体识别[J].通信学报,2006,27(2):87-94. 被引量：157
7何婷婷,张勇.基于质子串分解的中文术语自动抽取[J].计算机工程,2006,32(23):188-190. 被引量：21
8Justeson J S, Katz S M.Technical terminology: some linguistic properties and an algorithm for identification in text [J].Natural Language Engineering, 1996,3 (2) : 259-289.
9Pantel P,Lin De-kang.A statistical corpus-based term extractor[C]// Canadian Conference on AI 2001,2001:36-46.
10Frantzi K,Ananiadou S.The C-value/NC-value domain independent method for multi-word term extraction[J]Journal of Natural Language Processing, 1999,6(3 ) : 10-21.

共引文献148

1杨格兰,涂立.基于主题相关性和链接权重的PageRank算法[J].华中科技大学学报（自然科学版）,2012,40(S1):300-303. 被引量：4
2肖萍,申亚鹏.Nutch搜索引擎的公安应用研究[J].中国刑警学院学报,2015(1):39-44.
3廖剑,冷静,李艳燕,黄荣怀.知网的形式概念分析及概念相似度研究[J].计算机应用研究,2007,24(11):32-36. 被引量：3
4张玉宝.中文搜索引擎的原理及相关技术分析[J].福建电脑,2008,24(1):7-8. 被引量：3
5李村合,吕克强.一种改进PageRank的新方法[J].计算机系统应用,2008,17(3):81-83.
6王崝,鞠时光.基于时间维加权TimedWPR算法[J].计算机工程与设计,2008,29(12):3001-3004. 被引量：2
7王刚,邱玉辉,蒲国林.一个基于语义元的相似度计算方法研究[J].计算机应用研究,2008,25(11):3253-3255. 被引量：13
8王冬,雷景生,李壮.基于PageRank的页面排序改进算法[J].计算机工程与设计,2008,29(22):5921-5923. 被引量：11
9郑国良,叶飞跃,张滨,林国俊.基于网页内容和链接价值的相关度方法的实现[J].计算机工程与设计,2008,29(23):6020-6022. 被引量：4
10李村合,吕克强.Nutch搜索引擎的页面排序修改方法研究[J].计算机工程与设计,2009,30(6):1343-1345. 被引量：2

同被引文献56

1何燕,穗志方,段慧明,俞士汶.一种结合术语部件库的术语提取方法[J].计算机工程与应用,2006,42(33):4-7. 被引量：17
2邓勇,房俊民,文奕.专利信息集成服务平台的构建设想[J].情报理论与实践,2007,30(1):88-92. 被引量：18
3刘桃,刘秉权,徐志明,王晓龙.领域术语自动抽取及其在文本分类中的应用[J].电子学报,2007,35(2):328-332. 被引量：31
4胡文敏,何婷婷,张勇.基于卡方检验的汉语术语抽取[J].计算机应用,2007,27(12):3019-3020. 被引量：14
5刘豹,张桂平,蔡东风.基于统计和规则相结合的科技术语自动抽取研究[J].计算机工程与应用,2008,44(23):147-150. 被引量：36
6李秀英.术语与机器翻译——实验结果分析与术语数据库的构建[J].实验室研究与探索,2008,27(11):51-56. 被引量：3
7王昊,苏新宁.基于CRFs的角色标注人名识别模型在网络舆情分析中的应用[J].情报学报,2009,28(1):88-96. 被引量：13
8韦小丽,孙涌,张书奎,苗艳军.基于最大熵模型的本体概念获取方法[J].计算机工程,2009,35(24):114-116. 被引量：17
9李超,王会珍,朱慕华,张俐,朱靖波.基于领域类别信息C-value的多词串自动抽取[J].中文信息学报,2010,24(1):94-98. 被引量：7
10傅继彬,樊孝忠,毛金涛,余正涛.基于语言特性的中文领域术语抽取算法[J].北京理工大学学报,2010,30(3):307-310. 被引量：11

引证文献4

1张莉,刘昱显.基于语序位置特征的汉英术语对自动抽取研究[J].南京大学学报（自然科学版）,2015,51(4):707-713. 被引量：6
2王昊,王密平,苏新宁.面向本体学习的中文专利术语抽取研究[J].情报学报,2016,35(6):573-585. 被引量：18
3俞琰,赵乃瑄.基于通用词与术语部件的专利术语抽取[J].情报学报,2018,37(7):742-752. 被引量：14
4郑皓,许琦.数据仓库视角下多源异构专利数据集成研究[J].科技创新发展战略研究,2020,4(3):14-17. 被引量：1

二级引证文献35

1吕璐成,罗文馨,许景龙,王莉莉,马丽婧,赵亚娟.专利情报方法、工具、应用研究进展及新技术应用趋势[J].情报学进展,2020(1):235-278. 被引量：9
2于娟,张晨.基于Kernel-XGBoost的跨语言术语对齐方法[J].计算机科学,2022,49(S02):126-131. 被引量：1
3吴志祥,王昊,王雪颖,祁磊,苏新宁.基于奇异值分解的专利术语层次关系解析研究[J].情报学报,2017,36(5):473-483. 被引量：6
4刘里,肖迎元.基于术语长度和语法特征的统计领域术语抽取[J].哈尔滨工程大学学报,2017,38(9):1437-1443. 被引量：6
5俞琰,赵乃瑄.基于通用词与术语部件的专利术语抽取[J].情报学报,2018,37(7):742-752. 被引量：14
6唐慧慧,王昊,张紫玄,王雪颖.基于汉字标注的中文历史事件名抽取研究[J].数据分析与知识发现,2018,2(7):89-100. 被引量：8
7蒋俊梅.基于平行语料库的双语术语抽取系统研究[J].现代电子技术,2016,39(15):108-111. 被引量：2
8赵东玥,杜永萍,石崇德.基于BLSTM的科技文献术语抽取方法[J].情报工程,2018,4(1):67-74. 被引量：9
9谢泽宇,施国良,杨汉钰,潘奕慧.国际淡水争端领域分面本体构建与应用[J].情报杂志,2018,37(11):192-196. 被引量：3
10张婷.本体构建相关文献综述报告[J].电子技术与软件工程,2019(1):244-245. 被引量：3

1王昊贤,李广建.基于关联规则的术语自动抽取研究[J].图书与情报,2014(5):20-25. 被引量：1
2袁劲松,张小明,李舟军.术语自动抽取方法研究综述[J].计算机科学,2015,42(8):7-12. 被引量：19
3Beerlife.计算机病毒防治小常识[J].计算机安全,2001(5):56-57.
4何婷婷,张勇.基于质子串分解的中文术语自动抽取[J].计算机工程,2006,32(23):188-190. 被引量：21
5陈士超,郁滨.面向科技领域的术语自动抽取模型[J].系统工程理论与实践,2013,33(1):230-235. 被引量：2
6李国佳,杨喜亮.基于知网义原信息量的词语相似度计算方法[J].软件导刊,2015,14(6):142-144. 被引量：4
7闫琪琪,张海军.中文领域术语自动抽取方法进展研究[J].电脑知识与技术,2014(10):6716-6718. 被引量：6
8夏天.汉语词语语义相似度计算研究[J].计算机工程,2007,33(6):191-194. 被引量：63
9王家杰.孩子必须记住的常识性信息[J].农家致富,2008(18):58-58.
10木合亚提.尼亚孜别克,古力沙吾利.塔里甫,达吾勒.阿布都哈依尔.采用CRF模型的哈萨克语信息技术术语自动抽取技术研究[J].西北师范大学学报（自然科学版）,2016,52(1):53-56. 被引量：3

计算机应用与软件

2015年第2期

浏览历史

内容加载中请稍等...

基于多策略融合的专利术语自动抽取被引量：4

参考文献13

二级参考文献82

共引文献148

同被引文献56

引证文献4

二级引证文献35

相关作者

相关机构

相关主题

浏览历史

基于多策略融合的专利术语自动抽取 被引量：4

参考文献13

二级参考文献82

共引文献148

同被引文献56

引证文献4

二级引证文献35

相关作者

相关机构

相关主题

浏览历史

基于多策略融合的专利术语自动抽取被引量：4