科技项目查重方法研究综述被引量：8

A Survey on Identification Methods of Highly Similar Scientific Projects

下载PDF

导出

摘要对已有的科技项目查重方法进行系统性的综述,为其他研究者快速了解相关的背景和方法提供有用的知识和线索。首先给出科技项目查重的定义及其实现的一般过程,然后从文本预处理、特征提取、模型构建和相似度判别等维度对常用的方法进行分析和总结,讨论其优点和不足,最后阐述科技项目查重方法的未来发展趋势。 Identification of highly similar scientific projects is an essential way of ensuring fairness of project approval. In recent years, it has been one of the hottest topics in science and technology management. This paper reviews identification methods of highly similar scientific projects in a systemic way, which provides effective knowledge and clues for other re- searchers to quickly understand relevant background and methods. Firstly, a concept of identification of highly similar sci- entific projects and its general realization process are described, then, we summarize common methods for text pre - pro- cessing, feature extraction, model construction and similarity discrimination, including their advantages and disadvantages. Finally, future development trends are discussed for identification methods of highly similar scientific projects.

作者李善青邢晓昭杜圣梅 Li Shanqing, .Xing Xiaozhao, Du Shengmei(Institute of Scientific and Technical Information of China, Beijing 100038, Chin)

机构地区中国科学技术信息研究所

出处《科技管理研究》 CSSCI 北大核心 2018年第6期197-201,共5页 Science and Technology Management Research

基金国家自然科学基金项目"大数据挖掘在科技项目查重中的应用研究"(71303223)

关键词科技项目查重文本预处理特征提取模型构建相似度判别 identification of highly similar scientific projects text pre -processing feature extraction model construction similarity discrimination

分类号 G311 [文化科学]

引文网络
相关文献

参考文献11

1方延风.科技项目查重中特征词TF-IDF值计算方法的改进[J].情报探索,2012(1):1-3. 被引量：15
2林明才,康耀红,张诚一.基于科研立项管理应用的模糊C均值算法研究[J].计算机工程与设计,2010,31(7):1570-1572. 被引量：4
3胡伟伟,孙逊,王婷婷.基于向量空间模型的项目申报书查重系统设计[J].天津科技,2015,42(8):33-34. 被引量：5
4李善青,赵辉,宋立荣.基于大数据挖掘的科技项目查重模型研究[J].图书馆论坛,2014,34(2):78-83. 被引量：27
5范庆书,张经彦.谈基金项目评审中“重复性研究”的评判标准[J].中国科学基金,2003,17(5):283-284. 被引量：1
6李海峰,党延忠.科技项目管理中知识的界定与表示方法研究[J].项目管理技术,2010,8(2):29-34. 被引量：11
7刘荫明,张福俊,刘谦.浅析科研管理之避免重复立项[J].科技管理研究,2010,30(21):198-200. 被引量：10
8刘如,秦潇,董晓晴,吴琼.科技项目查重研究现状与发展对策[J].天津科技,2017,44(2):21-24. 被引量：3
9史科蕾,曹军杰.浅析科技项目查重方法的研究与现状[J].中国科教创新导刊,2013(13):182-183. 被引量：1
10刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：198

二级参考文献75

1刘晓莉,陈春梅.基于最小二乘原理的分段曲线拟合法[J].伊犁教育学院学报,2004,17(3):132-134. 被引量：24
2张鹏飞,李赟,刘建毅,钟义信.基于相对词频的文本特征抽取方法[J].计算机应用研究,2005,22(4):23-26. 被引量：9
3倪维健,黄亚楼,李飞,刘赏.一种基于加权多代表点的层次聚类算法[J].计算机科学,2005,32(5):150-154. 被引量：5
4王海涌,郑丽英,刘丽艳.基于文本表示的特征项权值确定方法研究[J].甘肃科学学报,2005,17(3):86-89. 被引量：8
5耿焕同,蔡庆生,于琨,赵鹏.一种基于词共现图的文档主题词自动抽取方法[J].南京大学学报（自然科学版）,2006,42(2):156-162. 被引量：30
6忻凌,倪志伟,黄玲.基于数据流的BIRCH改进聚类算法[J].计算机工程与应用,2007,43(5):166-168. 被引量：6
7席运江,党延忠.基于加权知识网络的组织知识存量表示与度量[J].科学学研究,2007,25(3):493-497. 被引量：13
8刘荫明,张福俊,刘谦,王亚博.我国科技查新管理体制存在的问题及对策研究[J].科技情报开发与经济,2007,17(16):108-109. 被引量：12
9万猛.关于科技评审专家的选择及其评审行为的判断方法[J].研究与发展管理,2007,19(3):119-122. 被引量：15
10H Y Tan. Chinese place automatic recognition research. In: C N Huang, Z D Dong, eds. Proc of Computational Language.Beijing: Tsinghua University Press, 1999

共引文献282

1贾异,童杨,董永庆,卞曙光,傅利平.基于大数据技术的国家科技计划项目评审立项研究[J].中国基础科学,2023,25(5):56-64. 被引量：2
2刘苗苗,李燕,王欣萌,甘琳琳,李虹.分级阅读初探:基于小学教材的汉语可读性公式研究[J].语言文字应用,2021(2):116-126. 被引量：9
3魏伟,郭崇慧,邢小宇.基于语义关联规则的试题知识点标注及试题推荐[J].数据分析与知识发现,2020,4(2):182-191. 被引量：9
4聂卉.结合词向量和词图算法的用户兴趣建模研究[J].数据分析与知识发现,2019,3(12):30-40. 被引量：8
5陈博逊,黄晶晓.一种基于HMM和CRF的双层分词模型[J].硅谷,2009,2(22).
6尹继豪,樊孝忠,刘士宁,于江德.一种基于Bootstrapping构建训练语料的方法[J].计算机研究与发展,2007,44(z2):394-397.
7于江德,谷川,葛文英,樊孝忠.一种基于字和子串联合标注的汉语分词方法[J].山西大学学报（自然科学版）,2011,34(3):357-362. 被引量：2
8于江德,周宏宇,余正涛.基于单个词语特征模板的汉语词性标注[J].山西大学学报（自然科学版）,2011,34(4):513-517. 被引量：1
9关茜,岳建伟,刘方,陈云浩,宫阿都.改进的RSS信息推送技术在农地流转中的应用[J].遥感信息,2015,30(1):129-133.
10李彦,贾爱军,占向辉,李翔龙.面向创新设计的多层次Web信息检索研究[J].工程设计学报,2005,12(3):129-133. 被引量：1

同被引文献40

1周湘林.从管理到治理:中国高校问责制范式转型[J].华中师范大学学报（人文社会科学版）,2011,50(3):144-149. 被引量：18
2黄承慧,印鉴,侯昉.一种结合词项语义信息和TF-IDF方法的文本相似度量方法[J].计算机学报,2011,34(5):856-864. 被引量：222
3赵凤飞,覃征.支持科技项目评审的信息处理技术[J].清华大学学报（自然科学版）,2011,51(11):1696-1700. 被引量：2
4方延风.科技项目查重中特征词TF-IDF值计算方法的改进[J].情报探索,2012(1):1-3. 被引量：15
5周湘林.科研诚信:研究进展与趋势[J].内蒙古师范大学学报（教育科学版）,2019,32(1):1-8. 被引量：12
6农静,王丰元.基于信息系统的科技规划项目库滚动修编管理研究[J].贵州电力技术,2015,18(2):49-51. 被引量：2
7张云起,孙军锋,王毅,耿勇,张雷.信联网商务信用体系建设[J].中央财经大学学报,2015(4):90-99. 被引量：17
8夏志明,刘新.一种基于语义的中文文本相似度算法[J].计算机与现代化,2015(4):6-9. 被引量：7
9赵士杰,陈秋.基于语义和TF-IDF的项目相似度计算方法[J].计算机时代,2015(5):1-3. 被引量：8
10胡伟伟,孙逊,王婷婷.基于向量空间模型的项目申报书查重系统设计[J].天津科技,2015,42(8):33-34. 被引量：5

引证文献8

1周育忠,陶秀杰,张自锋,韦嵘晖,杨宇亮.科技项目查重系统在企业中的实践应用[J].河南科技,2019,0(28):32-35. 被引量：2
2吴彬,杨振兴,郭芳琳,唐笑梅.工程项目查重系统的相关应用分析[J].经济研究导刊,2020,0(11):189-191.
3焦文,魏海燕,石英,鲁萱萱.基于行业词库预训练的科技项目查重研究[J].科学与信息化,2020(27):170-171.
4周湘林.高等学校科研诚信问责制机理与构建——基于案例的探索性研究[J].教育研究,2021,42(6):126-137. 被引量：10
5苏蒙,沈映泉,吕星星,吴钰秀,吴安波.基于语义的科技项目查重方法设计与政策建议[J].内江科技,2022,43(4):85-87. 被引量：1
6孙北宁,吕维新,曾俊,肖衡.一种结合TF-IDF和Simhash的科技项目文本相似性度量方法[J].电子技术应用,2023,49(6):89-93. 被引量：5
7孙小丽,范永学.基于智能查重技术的输变电工程设计质量常见病辅助决策系统研究[J].中国高新科技,2023(20):18-20.
8林正平,杨宇亮,李士杰.科技项目语义查重算法[J].科技与创新,2024(21):145-147.

二级引证文献18

1吴彬,杨振兴,郭芳琳,唐笑梅.工程项目查重系统的相关应用分析[J].经济研究导刊,2020,0(11):189-191.
2邵欣欣.以“三线模型”为基础的高校风险管理体系建设[J].财会学习,2022(9):5-8. 被引量：1
3王东,王飘,江俊鹏,李青,徐晨阳.科技项目申报书查重方法研究[J].中国科技资源导刊,2022,54(5):30-40. 被引量：1
4韩喜梅,陈沛酉.基于职业院校视角的职业教育质量第三方评估探析[J].职业技术教育,2022,43(19):55-60. 被引量：3
5莫甲凤,杨雯.学术打假何以成为国家行动——基于多源流理论的分析[J].现代大学教育,2022,38(5):15-26. 被引量：3
6丁文.推动高校科研诚信管理体系建设的几点思考[J].科技传播,2023,15(3):21-24. 被引量：3
7陈瑶,许敏.基于“道德—制度—监督”的高校科研诚信实现机制研究[J].中国高校科技,2023(6):15-19. 被引量：6
8张向聪,张潺,杨莹,王冰洁,王磊,陆思羽.智能信息系统业务事件驱动机理分析与运维模型优化研究[J].粘接,2023,50(10):181-184.
9袁春艳,代璐,向文霞.西部地区人工智能与教育深度融合的政策因应研究[J].高等建筑教育,2023,32(5):12-22.
10尹益民,周盈.我国科研诚信研究演化路径与最新进展——基于高质量论文的分析[J].传播与版权,2024(4):17-21.

1李善青.一种用于科技项目查重的数据整合及描述模型[J].情报工程,2017,3(5):53-59. 被引量：1
2刘冬瑶,刘世杰,陈宇星,张文波,周振.新闻文本自动分类技术概述[J].电脑知识与技术（过刊）,2017,23(12X):87-91. 被引量：7
3阿力木江.艾沙.基于Rapid Miner的维吾尔文文本预处理及分类实验设计[J].中国教育技术装备,2017,0(12):24-27. 被引量：1
4鲁梅林.如何“活”用数学教材[J].甘肃教育,2018,0(4):103-103.
5曲靖野,陈震,郑彦宁.基于主题模型的科技报告文档聚类方法研究[J].图书情报工作,2018,62(4):113-120. 被引量：16
6贾方,张润寒,葛莉.物联网多源异构型目标数据优化查询仿真[J].计算机仿真,2017,34(12):435-438. 被引量：6
7米硕,孙瑞彬,明晓,赵汝程.基于TF-IDF算法的文本特征词提取模型[J].中国战略新兴产业,2017(10X):113-113. 被引量：1
8吕博然,吴军华.基于路径序列相似度判别的程序克隆检测方法[J].计算机工程与应用,2018,54(2):55-61. 被引量：3
9谢振东,陈卫国,徐锋,何建兵,张景奎,罗鸣鸣.交通一卡通清分管理中的全数据查重方法研究[J].软件导刊,2018,17(1):35-37.
10彭静,景成龙,吴亚东,童健康,王鹏,李东野,孙红敏.基于逆序文本对齐的缩写词识别算法研究[J].武汉理工大学学报（信息与管理工程版）,2014,36(5):592-595. 被引量：3

科技管理研究

2018年第6期

浏览历史

内容加载中请稍等...

科技项目查重方法研究综述被引量：8

参考文献11

二级参考文献75

共引文献282

同被引文献40

引证文献8

二级引证文献18

相关作者

相关机构

相关主题

浏览历史

科技项目查重方法研究综述 被引量：8

参考文献11

二级参考文献75

共引文献282

同被引文献40

引证文献8

二级引证文献18

相关作者

相关机构

相关主题

浏览历史

科技项目查重方法研究综述被引量：8