基于随机森林的Science和Nature期刊潜在精品论文识别研究被引量：2

Identification of Potential High-Quality Articles in Two Top Journals named Science and Nature Based on Random Forest Model

原文传递

导出

摘要【目的/意义】为推动潜在“精品”文献识别及其在科技文献识别与传播利用领域中的应用。【方法/过程】以国际顶级期刊Science和Nature期刊出版的论文及其引用分布数据为样本,统计出全部论文的首次响应时间、摘要长度,总被引频次、资金资助、论文篇幅等特征,构建“精品”论文特征矩阵;然后基于“精品”论文特征矩阵和随机森林算法进行潜在“精品”论文识别模型的训练与识别应用。【结果/结论】研究结果显示,融合“精品”论文特征矩阵和随机森林模型能够较好地识别Science和Nature期刊中的潜在“精品”论文,模型正确识别分类的准确率均值达到80%以上,其中Nature期刊的“精品”文献识别准确率高出Science期刊的“精品”论文识别准确率2%左右;使用信息增益方法的模型识别效果比使用基尼不纯度方法的识别效果略好。此外,Science和Nature期刊“精品”论文的首次被引速度极快,在出版当年即被引用。【创新/局限】“精品”文献特征矩阵和机器学习模型的结合能够较好地应用于潜在“精品”论文的识别与推荐,然而未来需将模型推广应用于海量文献中“精品”论文的识别检验。【Purpose/significance】To promote the identification of potential"high-quality"literature and its application in the field of identification.【Method/process】This paper takes the articles from journals named Science and Nature,as well as their citation distribution data as sample.Such characteristics of each article as first-citation time,abstract length,total citation times,financial support and paper length was calculated to construct the feature matrix of"high-quality"articles.Then,based on the feature matrix of"highquality"articles and random forest algorithm,the recognition model of potential"high-quality"articles is trained and applied.【Result/conclusion】The results show that the fusion of the feature matrix of"high-quality"articles and the random forest model can efficiently identify the potential"high-quality"articles from Science and Nature,and the model’s average accuracy of correct recognition and classification is over 80%,among which the accuracy of identifying"high-quality"articles in the Nature was about 2%higher than that in the Science.The model’s effect of recognition using the information gain method is slightly better than that using the Gini impurity method.In addition,the first citation of"high-quality"articles in the Science and Nature is extremely rapid,being cited within the year of publication【Innovation/limitation】The combination of"high-quality"literature feature matrix and machine learning model can be well applied to the identification and recommendation of potential"high-quality"articles in high-impact journals.However,in the future,the model needs to be popularized and applied to the identification and inspection of"high-quality"articles in massive literature.

作者胡泽文任萍周西姬 HU Ze-wen;REN Ping;ZHOU Xi-ji(School of Management Science and Engineering,Nanjing University of Information Science&Technology,Nanjing 210044,China)

机构地区南京信息工程大学管理工程学院

出处《情报科学》 CSSCI 北大核心 2022年第4期90-95,106,共7页 Information Science

基金国家社会科学基金项目“面向海量科技文献的潜在‘精品’识别方法与应用研究”(20CTQ031)。

关键词随机森林识别模型潜在精品高被引首次被引科学计量 random forest model Identification model potential"high-quality"articles highly cited First-citation scientometrics

分类号 G237.5 [文化科学] G254 [文化科学—图书馆学]

引文网络
相关文献

参考文献10

1胡泽文,武夷山,高继平.图书情报学领域期刊论文零被引率的演变规律研究[J].情报学报,2018,37(3):243-253. 被引量：11
2胡泽文,崔静静,曹玲.国内外科技文献低被引研究进展述评[J].情报学报,2020,39(12):1354-1362. 被引量：11
3杜建,武夷山.基于被引速率指标识别睡美人文献及其“王子”——以2014年诺贝尔化学奖得主Stefan Hell的睡美人文献为例[J].情报学报,2015,34(5):508-521. 被引量：30
4杜建,武夷山.一个用于识别睡美人文献的新的无参数指标——基于“Science”和“Nature”上睡美人文献的验证[J].情报理论与实践,2017,40(2):19-25. 被引量：32
5宋呈玉,李秀霞,刘黎明.基于引文曲线导数的睡美人文献识别研究[J].情报资料工作,2019,40(3):33-38. 被引量：9
6赵又霖,刘黎明,葛梦真,陆颖隽.改进的“睡美人”B值识别模型构建及学科领域因素差异探析——以ISLS和WR为例[J].图书与情报,2020(2):128-139. 被引量：5
7宋呈玉,李秀霞,谢瑞霞,韩霞.基于二次函数曲线拟合的睡美人文献识别研究[J].情报杂志,2018,37(6):119-123. 被引量：13
8李秀霞,邵作运,刘超.基于K值算法的图书情报领域“睡美人”文献识别[J].图书情报工作,2017,61(21):114-122. 被引量：16
9文利情.核物理类论文的“睡美人”现象研究[J].图书馆研究与工作,2019(10):13-16. 被引量：2
10李小涛,秦萍,钱玲飞.图情领域基本科学指标数据库高被引论文的知识图谱分析[J].情报理论与实践,2017,40(2):111-116. 被引量：34

二级参考文献71

1陈悦,陈超美,刘则渊,胡志刚,王贤文.CiteSpace知识图谱的方法论功能[J].科学学研究,2015,33(2):242-253. 被引量：7338
2白云.中国人文社会科学期刊被引半衰期分析研究[J].云南师范大学学报（哲学社会科学版）,2006,38(4):127-130. 被引量：58
3姜春林,刘则渊.历时态角度看人文社会科学引文峰值及其引文评价的时间选择[J].情报科学,2006,24(9):1343-1347. 被引量：28
4王颖鑫,黄德龙,刘德洪.ESI指标原理及计算[J].图书情报工作,2006,50(9):73-75. 被引量：64
5陈立新,梁立明,刘则渊.力学文献老化速度50年(1954-2003)的变化趋势[J].现代情报,2006,26(10):12-15. 被引量：18
6邱均平,孙凯.基于ESI数据库的中国高校科研竞争力的计量分析[J].图书情报工作,2007,51(5):45-48. 被引量：140
7席鹏.有感于超分辨获得2014诺贝尔化学奖[EB/OL].[2014- 12 - 23 ]. http ://biog. scieneenet, c:n/blog - 499502 - 834005. html.
8Wyatt H V. Knowledge and prematurity-journey from transformation to DNA[J]. Perspectives in Biology and Medicine, 1961, 18(2): 149-156.
9Stent G S. Prematurity and uniqueness in scientific discovery [J]. Scientific American, 1972, 227(6) : 84-93.
10Cole S. Professional standing and the reception of scientific discoveries[ J ]. American Journal of Sociology, 1976, 76 (2) : 286-306.

共引文献104

1胡佳丽,曹忆堇.感染性疾病及传染病学期刊引证指标与零被引率的相关性分析[J].学报编辑论丛,2023(1):619-626.
2卢文辉,李战.零被引与高被引图书馆学硕士学位论文引文特征的比较分析[J].图书馆杂志,2020,39(1):76-84. 被引量：4
3王晓飞.科技论文零被引原因及思考——以《中国环境科学》和《环境科学》为例[J].编辑学报,2023,35(S02):46-48.
4杜建,武夷山.睡美人与王子文献的识别方法研究[J].图书情报工作,2015,59(19):84-92. 被引量：31
5杨柳,梅琴,李万春.《湖泊科学》创刊以来低被引论文特征剖析[J].编辑学报,2017,29(S1):166-169. 被引量：3
6高志,陈兰杰,张志强.顶尖科学家的学术影响力变化规律研究进展[J].图书情报工作,2016,60(6):135-141. 被引量：11
7李秀霞,邵作运,刘超.基于K值算法的图书情报领域“睡美人”文献识别[J].图书情报工作,2017,61(21):114-122. 被引量：16
8戴克清,陈万明,李小涛.共享经济研究脉络及其发展趋势[J].经济学动态,2017(11):126-140. 被引量：43
9张家榕,曾继城,叶鹰.3S引文现象的特征测度及学术意义——“睡美人”、“时髦女”与“天鹅”综论[J].情报学报,2017,36(12):1241-1246. 被引量：9
10郭倩影,杜建,唐小利.学术传承意义上“学术链”的识别方法探讨——以2014年诺贝尔化学奖为例[J].情报资料工作,2018,39(2):29-36. 被引量：8

同被引文献29

1叶鹰.高品质论文被引数据及其对学术评价的启示[J].中国图书馆学报,2010,36(1):100-103. 被引量：48
2包水梅.学术型博士生培养目标定位及其素质结构研究[J].教育科学,2015,31(2):71-78. 被引量：12
3杜建,武夷山.基于被引速率指标识别睡美人文献及其“王子”——以2014年诺贝尔化学奖得主Stefan Hell的睡美人文献为例[J].情报学报,2015,34(5):508-521. 被引量：30
4徐晓芹,刘晓燕,李春花.基于专家审稿意见的高被引和零被引论文学术质量差异性分析[J].编辑学报,2015,27(6):564-566. 被引量：12
5杜建,武夷山.一个用于识别睡美人文献的新的无参数指标——基于“Science”和“Nature”上睡美人文献的验证[J].情报理论与实践,2017,40(2):19-25. 被引量：32
6李小涛,秦萍,钱玲飞.图情领域基本科学指标数据库高被引论文的知识图谱分析[J].情报理论与实践,2017,40(2):111-116. 被引量：34
7杨红玉,王明元,游晓朝,刘建福.植物共生信号的文献计量分析[J].生态学报,2017,37(14):4913-4918. 被引量：6
8胡泽文,武夷山,高继平.图书情报学领域期刊论文零被引率的演变规律研究[J].情报学报,2018,37(3):243-253. 被引量：11
9陈锋,牛树奎,刘晓东.森林防火专业林区综合实习的改革探索[J].中国林业教育,2018,36(5):5-8. 被引量：1
10曾继城,张家榕,叶鹰.天鹅展翅:高品质论文的引文模式探析[J].大学图书馆学报,2019,37(2):83-87. 被引量：4

引证文献2

1胡泽文,任萍,崔静静.基于机器学习模型的科技论文潜在“精品”识别研究[J].情报学报,2023,42(2):189-202. 被引量：4
2王爱斌,殷继艳,翟杰休,张博,李勇.近十年林火科学方向学位论文分析[J].森林防火,2023,41(1):47-52. 被引量：1

二级引证文献5

1杨丽萍,黄丽芸,梁秀豪,刘晓蔚,韦维,梁星星,阳文林.基于人工智能构建以科技期刊为中心的学术生态体系[J].编辑学报,2023,35(S01):121-126.
2刘嘉宇,李贺,谷莹,时倩如,杨心苗.不平衡数据集上在线评论有用性识别研究[J].情报理论与实践,2023,46(11):119-125. 被引量：3
3刘巧艳.科技期刊数字出版的SWOT 分析及发展策略[J].传播力研究,2024,8(15):136-138.
4李哲锋,郭歆玮,何佳瑶.低温环境下仿生疏水涂层对木质墙壁结露现象的影响[J].林产工业,2024,61(7):1-5.
5王旭,薛宇菲,邱均平.开放科学环境下睡美人论文量化识别与影响因素研究[J].情报学报,2024,43(10):1166-1181.

1许晓岗,王亚波,张耀琴,童丽丽,赵子荀,夏重立,万广军,乔健鑫.陀螺果种子粕中皂苷提取及抗氧化活性[J].北华大学学报（自然科学版）,2020,21(1):87-92. 被引量：3
2唐詹,柏召,刁磊,郭旭超,周晗,李林.基于注意力池化和堆叠式结构的病虫害文献识别模型[J].农业机械学报,2021,52(S01):178-184. 被引量：2
3魏雪迎,叶鹰.特定领域研究主题及根基文献识别:科学史和科学哲学案例[J].情报理论与实践,2022,45(1):71-76.
4《世界桥梁》编辑部.欢迎订阅2022年度《世界桥梁》[J].世界桥梁,2022,50(2):83-83.
5胡泽文,任萍,沈佳慧.融合K值算法与三指标的神经科学领域“睡美人”论文识别及影响因素探析[J].现代情报,2022,42(3):147-156. 被引量：4
6李晓武,曲国华,张悦,韩江涛.区块链研究现状、知识演进与趋势分析——基于WOS核心数据库文献的科学计量[J].经济问题,2022(5):54-63. 被引量：14
7高扬,李婧,李蕴.我国“双一流”建设高校的国际科研合作发展态势:基于国际合作论文视角[J].科技管理研究,2022,42(8):88-95. 被引量：4
8欢迎订阅2022年《中国猪业》杂志[J].中国猪业,2022,17(2):23-23.
9敬告读者[J].中国药理学通报,2022,38(5).
10敬告读者[J].中国药理学通报,2022,38(6).

情报科学

2022年第4期

浏览历史

内容加载中请稍等...

基于随机森林的Science和Nature期刊潜在精品论文识别研究被引量：2

参考文献10

二级参考文献71

共引文献104

同被引文献29

引证文献2

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

基于随机森林的Science和Nature期刊潜在精品论文识别研究 被引量：2

参考文献10

二级参考文献71

共引文献104

同被引文献29

引证文献2

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

基于随机森林的Science和Nature期刊潜在精品论文识别研究被引量：2