基于网络表示学习的作者重名消歧研究被引量：10

Author Name Disambiguation with Network Embedding

导出

摘要【目的】消除文献系统中的作者重名歧义,以解决其导致的文献错误聚合问题。【方法】通过结构化文献数据建立作者网络、文献网络以及作者-文献网络,融合不同网络表示学习方法获得文献节点表示,并采用无监督学习方法,将文献节点表示作为特征,使用层次凝聚聚类按照真实作者对文献进行正确划分。【结果】在ArnetMiner、CiteSeerX和DBLP三组数据集上进行实证研究,本文方法在网络稀疏的情况下仍然具有较好的效果,Macro-F1值在次优模型基础上最高提升6%。【局限】仅研究英文情境下的作者重名消歧。【结论】基于网络表示学习的方法能够有效解决作者重名消歧问题,实验结果对于改进科研合作推荐、引文推荐以及知识网络相关研究具有重要意义。 [Objective]The paper tries to eliminate the ambiguity of author names in the document system,aiming to solve the problem of incorrect document aggregation.[Methods]First,we constructed three types of networks for authors,documents and author-documents,with structured document data.Then we combined different network embedding methods to obtain the representation of document nodes.Finally,we employed the unsupervised learning model and the hierarchical agglomerative clustering to process the documents.[Results]We conducted empirical studies on datasets from ArnetMiner,CiteSeerX and DBLP.Our method performed well on sparse networks and the macro-F1 value increased by 6%.[Limitations]We only explored author name disambiguation in English.[Conclusions]The proposed method could effectively reduce the ambiguity of author names.It is of great significance for scientific collaboration and citation recommendation,as well as knowledge network related research.

作者余传明钟韵辞林奥琛安璐 Yu Chuanming;Zhong Yunci;Lin Aochen;An Lu(School of Information and Safety Engineering,Zhongnan University of Economics and Law,Wuhan 430073,China;School of Information Management,Wuhan University,Wuhan 430072,China)

机构地区中南财经政法大学信息与安全工程学院武汉大学信息管理学院

出处《数据分析与知识发现》 CSSCI CSCD 北大核心 2020年第2期48-59,共12页 Data Analysis and Knowledge Discovery

基金教育部人文社会科学研究一般项目“多语言情境下基于深度表示与对齐的观点摘要研究”(项目编号:19YJC870029) 国家自然科学基金面上项目“大数据环境下基于领域知识获取与对齐的观点检索研究”(项目编号:71373286)的研究成果之一.

关键词网络表示学习异构网络作者重名消歧无监督学习 Network Embedding Heterogeneous Network Author Name Disambiguation Unsupervised Learning

分类号 TP391.1 [自动化与计算机技术—计算机应用技术] TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献8

1涂存超,杨成,刘知远,孙茂松.网络表示学习综述[J].中国科学：信息科学,2017,47(8):980-996. 被引量：101
2郭舒.文献数据库中作者名消歧算法研究[J].现代图书情报技术,2013(7):69-74. 被引量：7
3刘斌,赵升,孙笑明,裴云龙.我国专利数据中发明家姓名消歧算法研究[J].情报学报,2016,35(4):405-414. 被引量：14
4周杰,李弼程,唐永旺.基于关键证据与E^2LSH的增量式人名聚类消歧方法[J].情报学报,2016,35(7):714-722. 被引量：6
5章顺瑞,游宏梁.基于层次聚类算法的中文人名消歧[J].现代图书情报技术,2010(11):64-68. 被引量：12
6陈丽,朱裴松,钱铁云,朱辉,周静.基于边采样的网络表示学习模型[J].软件学报,2018,29(3):756-771. 被引量：14
7刘正铭,马宏,刘树新,杨奕卓,李星.一种融合节点文本属性信息的网络表示学习算法[J].计算机工程,2018,44(11):165-171. 被引量：11
8肖晶,梁冰,张晓丹,吕世炅.一种面向篇级数据的作者名消歧规则和算法[J].现代图书情报技术,2012(5):55-59. 被引量：10

二级参考文献86

1曹犟,邬晓钧,夏云庆,郑方.基于拼音索引的中文模糊匹配算法[J].清华大学学报（自然科学版）,2009(S1):1328-1332. 被引量：14
2曹雷.面向专利战略的专利信息分析研究[J].科技管理研究,2005,25(3):97-100. 被引量：60
3ICTCLAS-分词-中文分词-汉语分词[EB/OL].[2009-07-18].http://ictclas.org/.
4Malin B, Airoldi E, Carley K M. A Network Analysis Model for Disambiguation of Names in Lists[ J]. Computational & Mathematical Organization Theory, 2005,11 (2) :119 - 139.
5WePS - 3 Workshop Program[EB/OL]. [2010 - 07 - 10]. http ://nlp. uned. es/weps/.
6SemEval 2007 [ EB/OL ]. [ 2010 - 07 - 10]. http ://nip. cs. swarthrnore, edu/semeval/index, php.
7Mann G S, Yarowsky D. Unsupervised Personal Name Disambiguation[ C ]. In : Proceedings of the 7th Conference on Natural Language Learning at HLT - NAACL. 2003 : 33 -40.
8Balog K, Azzopardi L, Rijke M D. UVA: Language Modeling Techniques for Web People Search [ C ]. In : Proceedings of the 4th International Workshop on Semantic Evaluations. 2007:468 471.
9Ono S, Sato I, Yoshida M,et al. Person Name Disambiguation in Web Pages Using Social Network, Compound Words and Latent Topics [ C ]. In : Proceedings of the 12th Pacific - Asia Conference on Advances in Knowledge Discovery and Data Mining. 2008:260 - 271.
10Task3 Chinese Version[ EB/OL]. [2010 - 10 - 16]. http:// www. cipsc, org. cn/clp2010/task3_ch, htm.

共引文献147

1肖晶,梁冰,张晓丹,吕世炅.一种面向篇级数据的作者名消歧规则和算法[J].现代图书情报技术,2012(5):55-59. 被引量：10
2汤亚芬.先秦古汉语典籍中的人名自动识别研究[J].现代图书情报技术,2013(7):63-68. 被引量：15
3郭舒.文献数据库中作者名消歧算法研究[J].现代图书情报技术,2013(7):69-74. 被引量：7
4郭舒.文献数据库中作者名自动化消歧方法应用研究[J].情报杂志,2013,32(9):132-137. 被引量：5
5于健,吴霞,赵春梅.SCI论文作者甄别软件设计及应用[J].现代图书情报技术,2014(4):78-84. 被引量：2
6朱云霞.中文文献题录数据作者重名消解问题研究[J].图书情报工作,2014,58(23):143-148. 被引量：8
7任景华.利用优化的DBSCAN算法进行文献著者人名消歧[J].图书馆理论与实践,2014(12):61-65. 被引量：10
8郑琳,黄国彬.科研人员唯一标识符的理论研究现状剖析[J].图书馆建设,2015(11):25-30.
9刘忠宝.机器学习方法在个性化推荐系统中的应用[J].情报探索,2016(4):80-82. 被引量：1
10刘斌,赵升,孙笑明,裴云龙.我国专利数据中发明家姓名消歧算法研究[J].情报学报,2016,35(4):405-414. 被引量：14

同被引文献57

1杨南.谈中国人名汉语拼音的书写方式[J].编辑学报,1995,7(3):156-157. 被引量：6
2何雪英,张丽.Web of Science数据库2006年新增功能介绍[J].情报探索,2008(2):69-71. 被引量：2
3吴斌,徐超群,王文彬,吴巍.基于链接的作者重名处理方法研究与应用[J].计算机科学,2008,35(3):197-199. 被引量：5
4蔡晓妍,戴冠中,杨黎斌.谱聚类算法综述[J].计算机科学,2008,35(7):14-18. 被引量：189
5杨欣欣,李培峰,朱巧明,王英帅.一种基于改进的K-means算法的人名消歧系统的设计与实现[J].计算机与数字工程,2010,38(8):10-12. 被引量：5
6章顺瑞,游宏梁.基于层次聚类算法的中文人名消歧[J].现代图书情报技术,2010(11):64-68. 被引量：12
7王千,王成,冯振元,叶金凤.K-means聚类算法研究综述[J].电子设计工程,2012,20(7):21-24. 被引量：306
8朱亮亮.利用改进的K-means算法实现文献著者人名消歧[J].软件导刊,2013,12(5):63-66. 被引量：10
9郭舒.文献数据库中作者名消歧算法研究[J].现代图书情报技术,2013(7):69-74. 被引量：7
10郭舒.文献数据库中作者名自动化消歧方法应用研究[J].情报杂志,2013,32(9):132-137. 被引量：5

引证文献10

1沈喆,王毅,姚毅凡,成颖.面向学术文献的作者名消歧方法研究综述[J].数据分析与知识发现,2020,4(8):15-27. 被引量：10
2吴柯烨,闵超,孙建军,权昭瑄.面向特定科研任务的著者姓名消歧方法[J].情报学报,2021,40(7):734-744. 被引量：4
3王若琳,牛振东,蔺奇卡,朱一凡,邱萍,陆浩,刘东磊.基于异质信息嵌入与RNN聚类参数预测的作者姓名消歧方法[J].数据分析与知识发现,2021,5(8):13-24. 被引量：3
4朱晨清,刘至渊,李妍灵,朱临风,刘佳豪,陈伟.基于网络嵌入模型的DBLP数据库作者消歧[J].电脑编程技巧与维护,2022(1):3-9.
5沈喆,王毅,鞠秀芳,成颖.基于先精确后召回策略的作者名消歧模型研究[J].情报学报,2022,41(4):350-363. 被引量：2
6邓启平,陈卫静,嵇灵,张宇娥.一种基于异质信息网络的学术文献作者重名消歧方法[J].数据分析与知识发现,2022,6(4):60-68. 被引量：6
7杨昭.基于元路径的作者名称协同消歧研究[J].情报学报,2023,42(3):327-340.
8崔焕庆,杨峻铸,宋玮情.基于相似特征和关系图优化的姓名消歧[J].数据分析与知识发现,2023,7(5):71-80.
9武南南,郭泽浩,赵一鸣,甄紫旭,王文俊,柳研.应用双曲空间特征融合的姓名消歧方法研究[J].智能系统学报,2024,19(1):79-88.
10汤哲冲,方志坚,贾子杰.基于图神经网络的姓名消歧算法[J].智能计算机与应用,2024,14(3):54-60.

二级引证文献19

1刘晓婷,黄颖,李瑞婻,张琳.内聚-耦合视角下科研团队合作模式识别与对比研究[J].情报科学,2022,40(12):170-180. 被引量：11
2王伟,赵尔平,崔志远,孙浩.基于HowNet义原和Word2vec词向量表示的多特征融合消歧方法[J].计算机应用,2021,41(8):2193-2198. 被引量：7
3王若琳,牛振东,蔺奇卡,朱一凡,邱萍,陆浩,刘东磊.基于异质信息嵌入与RNN聚类参数预测的作者姓名消歧方法[J].数据分析与知识发现,2021,5(8):13-24. 被引量：3
4朱晨清,刘至渊,李妍灵,朱临风,刘佳豪,陈伟.基于网络嵌入模型的DBLP数据库作者消歧[J].电脑编程技巧与维护,2022(1):3-9.
5吴帼帼.高校图书馆查收查引中他引区分策略研究与实现[J].新世纪图书馆,2022(2):23-29. 被引量：3
6朱玉强,江涛,李翼飞.外文数据库英译中文作者姓名消歧实践[J].数字图书馆论坛,2022(2):33-39.
7沈喆,王毅,鞠秀芳,成颖.基于先精确后召回策略的作者名消歧模型研究[J].情报学报,2022,41(4):350-363. 被引量：2
8曹思萌,李春旺.作者名称增量消歧研究综述[J].数据分析与知识发现,2022,6(5):10-19. 被引量：1
9王东,李青,张志刚,王卓昊.科研人员画像构建方法研究[J].情报学报,2022,41(8):812-821. 被引量：4
10刘华玲,孙毅.基于实体识别和信息融合的知识图谱研究——以新冠肺炎疫情为例[J].计算机技术与发展,2022,32(9):107-113. 被引量：1

1程东波,柯小玲,林施鑫.基于等价性检验和特征聚类的《红楼梦》作者分析[J].理论数学,2020,10(5):549-555. 被引量：1
2李华平.到底是谁在讲故事?[J].语文教学通讯,2020(18):53-58.
3秧子.甲午前后上海东洋庄(本庄)与日本办庄经营火柴窥探及其断想[J].火柴工业,1999(2):19-22.
4李蕊.论行政处罚种类划分与设定[J].济南大学学报（社会科学版）,2020,30(3):140-149. 被引量：3
5彭锋.作为批评对象的艺术家[J].艺术评论,2020(5):7-19. 被引量：2
6赵文清,张诗满,李刚.基于聚类和关联分析的居民用户非侵入式负荷分解[J].电力自动化设备,2020,40(6):8-14. 被引量：26
7李金霞,赵志刚,李强,吕慧显,李明生.改进的局部和相似性保持特征选择算法[J].计算机科学,2020,47(S01):480-484. 被引量：2
8车文成,张俐,庞长涛.多曲面拼接曲面的内部特征识别[J].航空精密制造技术,2020,56(1):16-20. 被引量：1
9贺金风.本量利分析方法在企业管理会计实践中的应用[J].企业改革与管理,2020,0(4):128-129. 被引量：4
10唐琳,郭崇慧,陈静锋.中文分词技术研究综述[J].数据分析与知识发现,2020,4(2):1-17. 被引量：44

数据分析与知识发现

2020年第2期

浏览历史

内容加载中请稍等...

基于网络表示学习的作者重名消歧研究被引量：10

参考文献8

二级参考文献86

共引文献147

同被引文献57

引证文献10

二级引证文献19

相关作者

相关机构

相关主题

浏览历史

基于网络表示学习的作者重名消歧研究 被引量：10

参考文献8

二级参考文献86

共引文献147

同被引文献57

引证文献10

二级引证文献19

相关作者

相关机构

相关主题

浏览历史

基于网络表示学习的作者重名消歧研究被引量：10