一种结合TF-IDF和Simhash的科技项目文本相似性度量方法被引量：5

An approach for text similarity measurement of science and technology projects combing TF-IDF and Simhash

下载PDF

导出

摘要为了提高科技项目文本相似性度量的准确性和性能,将TF-IDF和Simhash相结合,提出了一种新的科技项目文本相似性度量方法。首先,该方法对科技项目文本进行预处理得到词项集合,再使用TF-IDF计算词项集合中每个词项的权重值,并选取具有较高权重值的重要词项;其次,使用Simhash把重要词项映射为固定长度的二进制串,并求和得到文本的Simhash签名;最后,使用汉明距离计算两个Simhash签名间的相似性。实验结果表明,所提方法在查准率、召回率和F度量值方面优于传统的Simhash算法和TF-IDF方法。 To enhance the accuracy and performance of text similarity measurement of science and technology projects,this pa‐per proposes a new approach for measuring text similarity of science and technology projects by combining TF-IDF and Simhash.Firstly,this method uses natural language processing technology to preprocess science and technology project texts to get a term set,then uses the TF-IDF method to calculate the TF-IDF value of each term in the term set,and selects the important term with higher TF-IDF value.Secondly,this method uses the Simhash algorithm to get the Simhash signature of the text through mapping the selected important terms into fixed binary strings.Finally,Hamming distance is used to calculate the similarity between two Simhash signatures.Experimental results show that compared to the traditional Simhash and TF-IDF,the proposed method can promote the evaluation metrics of precision,recall and F-measure.

作者孙北宁吕维新曾俊肖衡 Sun Beining;Lv Weixin;Zeng Jun;Xiao Heng(Department of Science Technology and Data,Yunnan Power Grid Co.,Ltd.,Kunming 650011,China;School of Big Data and Intelligent Engineering,Southwest Forestry University,Kunming 650224,China;Kunming Power Supply Bureau,Yunnan Power Grid Co.,Ltd.,Kunming 650011,China;Yunnan Yundian Tongfang Technology Co.,Ltd.,Kunming 650214,China)

机构地区云南电网有限责任公司科数部西南林业大学大数据与智能工程学院云南电网有限责任公司昆明供电局云南云电同方科技有限公司

出处《电子技术应用》 2023年第6期89-93,共5页 Application of Electronic Technique

基金国家自然科学基金项目(61702442)。

关键词科技项目文本文本相似度 TF-IDF Simhash算法 science and technology project text text similarity TF-IDF Simhash

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献10

1李善青,邢晓昭,杜圣梅.科技项目查重方法研究综述[J].科技管理研究,2018,38(6):197-201. 被引量：8
2赵凤飞,覃征.支持科技项目评审的信息处理技术[J].清华大学学报（自然科学版）,2011,51(11):1696-1700. 被引量：2
3黄承慧,印鉴,侯昉.一种结合词项语义信息和TF-IDF方法的文本相似度量方法[J].计算机学报,2011,34(5):856-864. 被引量：222
4王诚,王宇成.基于Simhash的大规模文档去重改进算法研究[J].计算机技术与发展,2019,29(2):115-119. 被引量：9
5黄敏,闫思贤.基于NewTF-IDF的新闻文本特征提取算法研究[J].湖北民族大学学报（自然科学版）,2021,39(2):187-192. 被引量：6
6董蕊芳,柳长安,杨国田.一种基于改进TF-IDF的SLAM回环检测算法[J].东南大学学报（自然科学版）,2019,49(2):251-258. 被引量：12
7张航,盛志伟,张仕斌,杨敏.Simhash算法在文本去重中的应用[J].计算机工程与应用,2020,56(11):246-251. 被引量：7
8庞宇,张倩,韩凯,肖彬.改进的Simhash算法在文本查重中的研究及应用[J].数字通信世界,2020,0(1):203-204. 被引量：2
9代飞,赵文卓,杨云,莫启,李彤,周华.BPMN 2.0编排的形式语义和分析[J].软件学报,2018,29(4):1094-1114. 被引量：20
10代飞,陈凤强,莫启,王炜,李彤,梁志宏.一种保持编排与参与者间行为一致的映射方法[J].软件学报,2018,29(5):1451-1470. 被引量：7

二级参考文献62

1刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：198
2宋韶旭,李春平.基于非对称相似度的文本聚类方法[J].清华大学学报（自然科学版）,2006,46(7):1325-1328. 被引量：7
3Fung B C M,Wang K,Ester M.Hierarchical document clustering//Wang John ed.The Encyclopedia of Data Warehousing and Mining,idea Group.2005:970-975.
4Salton G.The SMART Retrieval System-Experiments in Automatic Document Processing.Englewood Cliffs,New Jersey:Prentice Hall Inc,1971.
5Wang Y,Julia H.Document clustering with semantic analysis//Proceedings of the 39th Hawaii International Conferences on System Sciences.Hawaii,US,2006:54-63.
6Hotho A,Staab S,Stumme G.Wordnet improves text document clustering//Proceedings of the Semantic Web Workshop at SIGIR-2003,26th Annual International ACM SIGIR Conference.Toronto,Canada,2003:541-550.
7Hall P,Dowling G.Approximate string matching.Computing Survey,1980,12(4):381-402.
8Coelho T,Calado P,Souza L,Ribeiro-Neto B,Muntz R.Image retrieval using multiple evidence ranking.IEEETransactions on Knowledge and Data Engineering,2004,16(4):408-417.
9Ko Y,Park J,Seo J.Improving text categorization using the importance of sentences.lnformation Processing and Management,2004,40(1):65-79.
10Erkan G,Radev D.Lexrank:Graph-based lexical centrality as salience in text summarization.Journal of Artificial Intelligence Research,2004,22(7):457-479.

共引文献274

1杨一,邹昀瑾.以机器学习应对信息“爆炸”时代:公共管理研究的降维可视化探析[J].中国行政管理,2021(1):105-113. 被引量：15
2张新阳,帅强,李伟.基于高阶矩模型的电力负荷预测研究[J].云南大学学报（自然科学版）,2020,42(S02):60-64. 被引量：1
3张春辉,白翠芝,张蔓娴.基于小波的电力负荷异常检测[J].云南大学学报（自然科学版）,2020,42(S02):49-54. 被引量：11
4李零,杨捷,段明明.基于长短时记忆网络的电力故障维修效果情感分析[J].云南大学学报（自然科学版）,2020,42(S02):44-48. 被引量：2
5杨捷,范美位,罗成臣,张思路.面向电力工单文本的服务失误识别[J].云南大学学报（自然科学版）,2020,42(S02):32-37. 被引量：1
6许睿,龙丹,刘佳,刘畅.基于LDA模型的电力投诉文本热点话题识别[J].云南大学学报（自然科学版）,2020,42(S02):26-31. 被引量：3
7马文,杨铮宇,张梅.基于偏差熵的低压电力用户信用组合评价研究[J].云南大学学报（自然科学版）,2020,42(S02):1-5. 被引量：6
8赵增涛,张豪,余益龙.应用于电网资产模型搜索的交叉权积文本相似度计算方法[J].水利水电技术（中英文）,2020,51(S02):209-214.
9孙红,黎铨祺,赵娜.基于双层树状支持向量机的观点挖掘与倾向分析[J].智能计算机与应用,2021,11(3):44-47. 被引量：3
10王鹏,郑贵省,郭强,贾蓓.基于网络爬虫的民用运力数据获取[J].军事交通学院学报,2020,22(1):87-90. 被引量：1

同被引文献57

1闫博.基于HanLP关键词抽取与句法分析的图谱构建[J].电子元器件与信息技术,2022,6(9):77-80. 被引量：3
2刘浏,王东波.命名实体识别研究综述[J].情报学报,2018,37(3):329-340. 被引量：150
3柏兆朋.数据中心网络运维自动化管理软件介绍[J].中国金融电脑,2018(11):92-92. 被引量：2
4万涵.智能化运维管理平台的规划设计探讨[J].通讯世界,2019,26(6):131-133. 被引量：13
5李玲,王法胜,李绍民.基于Simhash算法的作业查重系统设计[J].大连民族大学学报,2020,22(1):80-84. 被引量：3
6黄林,常健,杨帆,李忆,牛新征.基于改进k-means的电力信息系统异常检测方法[J].深圳大学学报（理工版）,2020,37(2):214-220. 被引量：24
7刘晴,刘旭,龙姣,张光辉,袁汉云.电力通信调度智能指挥平台研究与应用[J].粘接,2020,41(1):189-192. 被引量：6
8王传栋,徐娇,张永.实体关系抽取综述[J].计算机工程与应用,2020,56(12):25-36. 被引量：30
9郝志峰,廖祥财,温雯,蔡瑞初.基于多上下文信息的协同过滤推荐算法[J].计算机科学,2021,48(3):168-173. 被引量：11
10宫义山,段亚奇.基于不同模型的中文命名实体识别方法研究[J].长江信息通信,2021(1):84-86. 被引量：2

引证文献5

1张向聪,张潺,杨莹,王冰洁,王磊,陆思羽.智能信息系统业务事件驱动机理分析与运维模型优化研究[J].粘接,2023,50(10):181-184.
2熊良钰,邓伦丹.基于Simhash算法的题库查重系统的设计与实现[J].科学技术创新,2024(9):91-94.
3严劲,刘珮.面向下一代互联网的云网运维智能化转型研究[J].邮电设计技术,2024(4):26-31.
4宋智翔,姚嘉昕.基于用户特征的馆藏图书智能融合聚类推荐仿真[J].网络新媒体技术,2024,13(4):51-57.
5赵汉青,李玥函,邹欣妍.基于自然语言处理的易水学派文本挖掘与句法分析图谱构建研究[J].医学研究与教育,2024,41(4):30-37.

1徐莉,刘威,常兴治.改进型SimHash算法用于代码数据相似度检测[J].福建电脑,2023,39(6):41-45. 被引量：2
2黄溶冰,张竞雪.关键审计事项披露的模仿同构与股价同步性[J].财经理论与实践,2023,44(1):51-60. 被引量：6
3刘静静,邓浩江,李杨.一种隐私保护的文本数据确权方法[J].电子设计工程,2023,31(9):24-28. 被引量：1
4王英,梁思怡,杨巍,林伟明,胡振宁.面向纸本图书的图书馆用户画像构建探索[J].图书馆杂志,2023,42(2):128-133. 被引量：9
5贾澎涛,温滋.基于RS_Hash频繁项集的卫星载荷关联规则算法[J].国外电子测量技术,2023,42(2):9-15.
6姚灏,张德方.一种优化物联网传感器数据存储的安全方法[J].物联网技术,2023,13(6):122-124. 被引量：3
7刘星雨,盛业华,秦佳睿,刘青昊,叶龙杰.基于隐马尔可夫模型的时空轨迹语义匹配方法[J].地理与地理信息科学,2023,39(3):1-6.
8蒋艳,秦亚诺.关键审计事项信息含量对股价同步性的影响研究[J].中文科技期刊数据库（全文版）经济管理,2023(1):173-177.

电子技术应用

2023年第6期

浏览历史

内容加载中请稍等...

一种结合TF-IDF和Simhash的科技项目文本相似性度量方法被引量：5

参考文献10

二级参考文献62

共引文献274

同被引文献57

引证文献5

相关作者

相关机构

相关主题

浏览历史

一种结合TF-IDF和Simhash的科技项目文本相似性度量方法 被引量：5

参考文献10

二级参考文献62

共引文献274

同被引文献57

引证文献5

相关作者

相关机构

相关主题

浏览历史

一种结合TF-IDF和Simhash的科技项目文本相似性度量方法被引量：5