面向信息分析的专利术语抽取研究被引量：15

Patent Term Extraction for Information Analysis

导出

摘要从信息分析的实际需求出发,对与电动汽车相关的5 405条专利数据进行术语抽取、生僻术语识别和字段比较研究。结果显示关键短语抽取的方法可行,互信息抽取的术语所在文档的平均文档长度更接近集合的平均文档长度;摘要和First Claim字段的术语存在一定差别,但对分类或聚类同等重要;生僻术语识别算法能够发现生僻词和高频词的对应关系。研究结论可以为专利文本挖掘和专利信息分析提供结果和方法,并为信息分析工作提供所需的参考术语。 Based on the actual need of information analysis, this paper studies 5405 pieces of patent data about electric vehicle by term extraction, rare term recognition and field comparison. The result reveals that key-phrase extraction is feasible ; that average length of the documents containing terms ranked by mutual information is closer to one of collection; that terms in abstract and those in first claim are different to a certain extent, but of equal importance to text categorization/clustering; the algorithm of rare term recognition can find the corresponding relationship between rare words and high frequency words. This paper provides results and methods for patent text mining and patent information analysis, and provides reference for information analysis.

作者屈鹏王惠临

机构地区中国科学技术信息研究所

出处《图书情报工作》 CSSCI 北大核心 2013年第1期130-135,共6页 Library and Information Service

基金第51批中国博士后科学基金面上资助一等资助项目"科技文本信息资源中术语抽取与基于术语的分类与聚类"(项目编号:2012M510040) 中国科学技术信息研究所学科建设项目"自然语言处理"(项目编号:XK2012-6)研究成果之一

关键词术语抽取文本挖掘专利信息分析 term extraction text mining patent information analysis

分类号 G353.1 [文化科学—情报学]

引文网络
相关文献

参考文献12

1Tseng Yuenhsien, Lin Chijen, Lin Yui. Text mining techniques for patent analysis [ J ]. Information Processing and Management, 2007, 43(5) : 1216 -1247.
2曲军伟,乔晓东,桂婕.自组织映射在专利文本聚类中的应用研究[J].数字图书馆论坛,2010(9):13-19. 被引量：8
3刘玉琴,朱东华,吕琳.基于文本挖掘技术的产品技术成熟度预测[J].计算机集成制造系统,2008,14(3):506-510. 被引量：24
4Yoon B, Park Y. A text-mining-based patent network: Analytical tool for high-technology trend [ J ]. Journal of High Technology Management Research, 2004, 15( 1 ) : 37 -50.
5韩红旗,朱东华,汪雪锋.专利技术术语的抽取方法[J].情报学报,2011,30(12):1280-1285. 被引量：24
6韩红旗,安小米,朱东华,汪雪锋.专利技术术语共现的战略图分析方法[J].计算机应用研究,2011,28(2):576-579. 被引量：24
7Witten I H, Paynter G W, Frank E, et al. KEA: Practical automatic keyphrase extraction [ C ]//Proceedings of the 4th ACM Conference on Digital Libraries ( DL ' 99 ). New York : ACM Press, 1999 : 254 - 255.
8Kelleher D, Luz S. Automatic hypertext keyphrase detection [ C ]// Proceedings of the 19th Intemational Joint Conference on Artificial Intelligence ( IJCAI ' 05 ). San Francisco: Morgan Kaufmann Publishers Inc. , 2005 : 1608 - 1609.
9E1-Behagy S R, Rafea A. KP-Miner: A keyphrase extraction system for English and Arabic documents [ J ]. Information Systems, 2009, 34(1) : 132 -144.
10Mihalcea R, Tarau P. TextRank: Bringing order in text[ C/OL]// Proceedings of the 2004 Conference cm Empirical Methods in Natural Language Processing (EMNLP'04). [2011 - 10 - 18]. http://www. aclweb, org/anthology-new/W/W04/ W04-3252. pdf.

二级参考文献37

1谢彩霞,梁立明,王文辉.我国纳米科技论文关键词共现分析[J].情报杂志,2005,24(3):69-73. 被引量：83
2冯志伟.科技术语古今谈[J].术语标准化与信息技术,2005(2):4-8. 被引量：12
3邹娟,周经野,邓成,高南莎.特征词提取中同义处理的新方法[J].中文信息学报,2005,19(6):44-49. 被引量：10
4袁军鹏,朱东华,李毅,李连宏,黄进.文本挖掘技术研究进展[J].计算机应用研究,2006,23(2):1-4. 被引量：58
5张换高,赵文燕,檀润华.基于专利分析的产品技术成熟度预测技术及其软件开发[J].中国机械工程,2006,17(8):823-827. 被引量：41
6何燕,穗志方,段慧明,俞士汶.一种结合术语部件库的术语提取方法[J].计算机工程与应用,2006,42(33):4-7. 被引量：17
7LAW J, WHITTAKER J. Mapping acidification research: a test of the co-word method[J].Scientometrics,1992,23(3):417-461.
8QIN H. Knowledge discovery through co-word analysis[J].Library Trends,1999,48(1):133-159.
9LAW J, BAUIN S, COURTIAL J P, et al. Policy and the mapping of scientific change:a co-word analysis of research into environment acidification[J].Scientometrics,1988,14(3-4):251-264.
10CALLON M, COURTIAL J P, LAVILLE F. Co-word analysis as a tool for describing the network of interactions between basic and technological research: the case of polymer chemsitry[J].Scientometrics,1991,22(1):155-205.

共引文献74

1王曰芬,徐丹丹,李飞.专利信息内容挖掘及其试验研究[J].现代图书情报技术,2008(12):59-65. 被引量：8
2王丽芳,蒋国瑞,黄梯云.基于支持向量机的技术成熟度预测[J].科技管理研究,2009,29(5):296-298. 被引量：6
3高继平,丁堃.专利研究文献的可视化分析[J].情报杂志,2009,28(7):12-16. 被引量：32
4岑咏华,王曰芬,王晓蓉.面向企业技术创新决策的专利数据挖掘研究综述(下)[J].情报理论与实践,2010,33(2):124-128. 被引量：5
5黄鲁成,赵志华,傅晓阳.产品技术成熟度研究综述[J].科学管理研究,2010,28(2):38-41. 被引量：21
6邹灵浩,郭东明,高航,孙长乐.协同产品开发设计成熟度的模糊预测方法[J].计算机辅助设计与图形学学报,2010,22(5):791-796. 被引量：7
7娄岩,傅晓阳,黄鲁成.基于文献计量学的技术成熟度研究及实证分析[J].统计与决策,2010,26(19):99-101. 被引量：17
8黄鹤艇,王浩伦,侯亮.装载机技术成熟度预测及发展趋势探讨[J].中国工程机械学报,2010,8(3):364-369. 被引量：5
9彭继东,谭宗颖.一种基于文本挖掘的专利相似度测量方法及其应用[J].情报理论与实践,2010,33(12):114-118. 被引量：14
10邱清盈,薛驰,冯培恩,邓坤.专利设计知识的创新性评估方法及其在创新设计中的应用[J].机械工程学报,2012,48(11):39-45. 被引量：10

同被引文献308

1吴菲菲,李倩,黄鲁成.基于专利SAO结构的技术应用领域识别方法研究[J].科研管理,2014,35(6):1-7. 被引量：27
2李宏乔,樊孝忠.汉语文本中特殊符号串的自动识别技术[J].计算机工程,2004,30(12):114-115. 被引量：2
3刘剑兰.用信息萃取进行文本挖掘的方法[J].情报杂志,2004,23(12):41-42. 被引量：1
4徐海霞.聚类分析在Web文本挖掘中的应用[J].情报杂志,2004,23(12):99-101. 被引量：5
5孙瑞英.从定性、定量到内容分析法——图书、情报领域研究方法探讨[J].现代情报,2005,25(1):2-6. 被引量：64
6么枕生.用于数值分类的聚类分析[J].海洋湖沼通报,1994(2):1-12. 被引量：34
7杜波,田怀凤,王立,陆汝占.基于多策略的专业领域术语抽取器的设计[J].计算机工程,2005,31(14):159-160. 被引量：26
8丁月华,文贵华,郭炜强.基于核向量空间模型的专利分类[J].华南理工大学学报（自然科学版）,2005,33(8):58-61. 被引量：12
9郭炜强,文军,文贵华.基于贝叶斯模型的专利分类[J].计算机工程与设计,2005,26(8):1986-1987. 被引量：13
10刘勇,孙中海,刘德春,吴波,江东.部分柚类品种数值分类研究[J].果树学报,2006,23(1):35-40. 被引量：26

引证文献15

1屈鹏,王惠临.专利文本分类的基础问题研究[J].现代图书情报技术,2013(3):38-44. 被引量：15
2唐晓波,胡华.中文UGC信息源的本体概念抽取研究[J].现代图书情报技术,2014(5):41-49. 被引量：4
3何彦青,刘建辉,屈鹏,李颖,徐红姣.基于机器翻译的专利术语翻译获取方法研究[J].图书情报工作,2014,58(19):25-30. 被引量：3
4屈鹏,张均胜,曾文,乔晓东,王惠临.国内外专利挖掘研究(2005-2014)综述[J].图书情报工作,2014,58(20):131-137. 被引量：15
5屈鹏,王惠临.专利信息服务中的术语抽取[J].情报科学,2015,33(9):66-71. 被引量：6
6何宇,吕学强,徐丽萍.新能源汽车领域中文术语抽取方法[J].现代图书情报技术,2015(10):88-94. 被引量：10
7刘彤,倪维健,柳梅.面向搜索引擎查询日志的领域术语自动识别方法[J].现代图书情报技术,2016(2):25-33. 被引量：2
8曾镇,吕学强,李卓.一种面向专利摘要的领域术语抽取方法[J].计算机应用与软件,2016,33(3):48-51. 被引量：5
9张兆锋.专利技术功效图应用模式研究[J].数字图书馆论坛,2016(6):34-39. 被引量：7
10刘红光,马双刚,刘桂锋.基于机器学习的专利文本分类算法研究综述[J].图书情报研究,2016,9(3):79-86. 被引量：19

二级引证文献117

1杜恒欣,朱习军.基于BiLSTMATTCNN中文专利文本分类[J].计算机系统应用,2020(11):260-265. 被引量：3
2毕臣,季铎,蔡东风.基于专利信息的潜在语义索引优化技术的研究[J].山西大学学报（自然科学版）,2014,37(1):26-33.
3许明金,廖婷,姜坷炘,文庭孝.三一重工的专利情报挖掘与分析研究[J].科技管理研究,2018,38(24):169-176. 被引量：4
4许德山,张运良,李芳.中文本体三元组的单字索引与更新方法研究[J].图书情报工作,2014,58(22):111-116.
5赵刚,宋健豪.基于系统调用时间特征的异常行为智能检测系统[J].计算机应用与软件,2015,32(4):309-313. 被引量：4
6季铎,毕臣,蔡东风.基于类别信息优化的潜在语义分析分类技术[J].中国科学技术大学学报,2015,45(4):314-320. 被引量：5
7聂鑫.浅谈民机研制中的专利挖掘[J].科技创新与应用,2015,5(26):45-45.
8李梦瑶,刘彤,蒋贵凰.我国专利挖掘研究现状分析[J].科技创新与应用,2015,5(36):281-282. 被引量：8
9马艳萍.新建本科院校专利生产信息分析研究——以广东省为例[J].科技管理研究,2016,36(16):160-165. 被引量：2
10刘红光,马双刚,刘桂锋.基于机器学习的专利文本分类算法研究综述[J].图书情报研究,2016,9(3):79-86. 被引量：19

1化柏林.针对中文学术文献的情报方法术语抽取[J].现代图书情报技术,2013(6):68-75. 被引量：30
2杨雅娜,刘胜奇.基于TValue融合领域度的术语抽取法[J].情报工程,2015,1(5):25-31. 被引量：4
3褚峻.对我国信息分析工作的调查统计[J].情报理论与实践,1999,22(5):345-347. 被引量：5
4董沛文.浅析信息分析工作的现状及发展趋势[J].现代情报,2007,27(3):60-61. 被引量：2
5季培培,鄢小燕,岑咏华.面向领域中文文本信息处理的术语识别与抽取研究综述[J].图书情报工作,2010,54(16):124-129. 被引量：17
6祝清松,冷伏海.自动术语识别存在的问题及发展趋势综述[J].图书情报工作,2012,56(18):104-109. 被引量：16
7屈鹏,王惠临.专利信息服务中的术语抽取[J].情报科学,2015,33(9):66-71. 被引量：6
8曾文.面向电动汽车领域的专利文献加工和术语抽取方法研究[J].中国科技资源导刊,2014,46(5):53-56.
9屈鹏,张均胜,曾文,乔晓东,王惠临.国内外专利挖掘研究(2005-2014)综述[J].图书情报工作,2014,58(20):131-137. 被引量：15
10赵岩碧.关于信息分析工作的几点思考[J].情报杂志,2004,23(3):116-117. 被引量：12

图书情报工作

2013年第1期

浏览历史

内容加载中请稍等...

面向信息分析的专利术语抽取研究被引量：15

参考文献12

二级参考文献37

共引文献74

同被引文献308

引证文献15

二级引证文献117

相关作者

相关机构

相关主题

浏览历史

面向信息分析的专利术语抽取研究 被引量：15

参考文献12

二级参考文献37

共引文献74

同被引文献308

引证文献15

二级引证文献117

相关作者

相关机构

相关主题

浏览历史

面向信息分析的专利术语抽取研究被引量：15