融入新闻标题信息的新闻文本与评论的语义相似度计算方法被引量：1

Semantic Similarity Calculation Method of News Text and Comment Integrated with News Title Information

下载PDF

导出

摘要针对预训练模型在处理新闻这种长文本时会截断一部分文本,导致文本信息缺失的问题,提出一种在融入新闻标题信息基础上将TextRank算法、隐含Dirichlet分布主题模型与预训练模型相结合的方法构建模型,并将该模型与其他语义相似度计算方法进行对比.结果表明,该模型准确率为82.46%,召回率为87.43%,精确率为82.68%,F 1值为84.99%,取得了最优结果,从而有效提高了新闻文本与评论的语义相似度计算性能. Aiming at the problem that the pre-training model would cut off part of text when dealing with long text such as news,which led to the loss of text infomation,we proposed a method to build a model by combining TextRank algorithm,implicit Dirichlet distribution topic model and pre-training model on the basis of integrating news title information,and compared the model with other semantic similarity calculation methods.The results show that the accuracy rate of the model is 82.46%,the recall rate is 87.43%,the accuracy rate is 82.68%,and the F 1 value is 84.99%,the optimal results are obtained,which effectively improves the performance of semantic similarity calculation between news texts and comments.

作者李伊仝王红斌程良 LI Yitong;WANG Hongbin;CHENG Liang(Faculty of Information Engineering and Automation,Kunming University of Science and Technology,Kunming 650504,China;College of City,Kunming University of Science and Technology,Kunming 650051,China)

机构地区昆明理工大学信息工程与自动化学院昆明理工大学城市学院

出处《吉林大学学报（理学版）》 CAS 北大核心 2022年第6期1399-1406,共8页 Journal of Jilin University:Science Edition

基金国家自然科学基金(批准号:61966020) 云南省基础研究计划面上项目(批准号:CB22052C143A) 云南省教育厅科学研究基金(批准号:2018JS035).

关键词语义相似度预训练模型隐含Dirichlet分布新闻评论 semantic similarity pre-training model implicit Dirichlet distribution news comment

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献10

1张雷,崔荣一.基于编辑距离的词序敏感相似度度量方法[J].延边大学学报（自然科学版）,2020,46(2):140-144. 被引量：5
2周丽杰,于伟海,郭成.基于词项语义组合的文本相似度计算方法研究[J].计算机工程与应用,2016,52(19):90-93. 被引量：4
3黄贤英,谢晋,龙姝言.基于公共词块及N-gram模型的问句相似度算法[J].重庆理工大学学报（自然科学）,2017,31(10):175-179. 被引量：7
4周艳平,李金鹏.一种基于词向量及位置编码的Jaccard相似度算法[J].青岛科技大学学报（自然科学版）,2020,41(6):93-98. 被引量：6
5黄承慧,印鉴,侯昉.一种结合词项语义信息和TF-IDF方法的文本相似度量方法[J].计算机学报,2011,34(5):856-864. 被引量：222
6王振振,何明,杜永萍.基于LDA主题模型的文本相似度计算[J].计算机科学,2013,40(12):229-232. 被引量：97
7张超,陈利,李琼.一种PST_LDA中文文本相似度计算方法[J].计算机应用研究,2016,33(2):375-377. 被引量：18
8杨德志,柯显信,余其超,杨帮华.基于RCNN的问题相似度计算方法[J].计算机工程与科学,2021,43(6):1076-1080. 被引量：9
9周圣凯,富丽贞,宋文爱.基于深度学习的短文本语义相似度计算模型[J].广西师范大学学报（自然科学版）,2022,40(3):49-56. 被引量：9
10马玉环,张瑞军,武晨,屈军锁.深度残差网络和LSTM结合的图像序列表情识别[J].重庆邮电大学学报（自然科学版）,2020,32(5):874-883. 被引量：13

二级参考文献84

1于津凯,王映雪,陈怀楚.一种基于N-Gram改进的文本特征提取算法[J].图书情报工作,2004,48(8):48-50. 被引量：17
2王燕.一种改进的K-means聚类算法[J].计算机应用与软件,2004,21(10):122-123. 被引量：9
3刘涛,吴功宜,陈正.一种高效的用于文本聚类的无监督特征选择算法[J].计算机研究与发展,2005,42(3):381-386. 被引量：37
4谭松波,王月粉.中文文本分类语料库-TanCorpv1.0[EB/OL].(2007-08-29)[2008-01-20].http://www.searehforum:org.cn/tansongbo/corpus.htm.
5胡春光,高燕,李颖.一种扩展滑动窗口算法[J].微电子学与计算机,2007,24(8):106-109. 被引量：6
6Fung B C M,Wang K,Ester M.Hierarchical document clustering//Wang John ed.The Encyclopedia of Data Warehousing and Mining,idea Group.2005:970-975.
7Salton G.The SMART Retrieval System-Experiments in Automatic Document Processing.Englewood Cliffs,New Jersey:Prentice Hall Inc,1971.
8Wang Y,Julia H.Document clustering with semantic analysis//Proceedings of the 39th Hawaii International Conferences on System Sciences.Hawaii,US,2006:54-63.
9Hotho A,Staab S,Stumme G.Wordnet improves text document clustering//Proceedings of the Semantic Web Workshop at SIGIR-2003,26th Annual International ACM SIGIR Conference.Toronto,Canada,2003:541-550.
10Hall P,Dowling G.Approximate string matching.Computing Survey,1980,12(4):381-402.

共引文献367

1杨一,邹昀瑾.以机器学习应对信息“爆炸”时代:公共管理研究的降维可视化探析[J].中国行政管理,2021(1):105-113. 被引量：15
2李飞跃,宋佳霏.基于文本相似度分析的《红楼梦》化用唐诗研究[J].中外文化与文论,2024(2):213-228.
3杨捷,范美位,罗成臣,张思路.面向电力工单文本的服务失误识别[J].云南大学学报（自然科学版）,2020,42(S02):32-37. 被引量：1
4孟旭,谢靖,李春旺.基于核心主题特征的作者身份识别研究[J].知识管理论坛,2023(5):351-364.
5赵增涛,张豪,余益龙.应用于电网资产模型搜索的交叉权积文本相似度计算方法[J].水利水电技术（中英文）,2020,51(S02):209-214.
6金丹,张娇娇,李依玲,崔立新.一种改进的协同过滤算法研究——以电影推荐系统为例[J].国际商务（对外经济贸易大学学报）,2020,0(1):128-141. 被引量：6
7孙红,黎铨祺,赵娜.基于双层树状支持向量机的观点挖掘与倾向分析[J].智能计算机与应用,2021,11(3):44-47. 被引量：3
8王鹏,郑贵省,郭强,贾蓓.基于网络爬虫的民用运力数据获取[J].军事交通学院学报,2020,22(1):87-90. 被引量：1
9高飞,鱼江,任芳,黄保瑞,次旺多吉.四维文档向量模型的k-means新闻文本聚类算法[J].西藏大学学报（社会科学版）,2013,28(4):109-112.
10皮靖,邵雄凯,肖雅夫.基于朴素贝叶斯算法的主题爬虫的研究[J].计算机与数字工程,2012,40(6):76-78. 被引量：7

同被引文献9

1金博,史彦军,滕弘飞.基于语义理解的文本相似度算法[J].大连理工大学学报,2005,45(2):291-297. 被引量：80
2张毅超,车玫,马骏.求最长公共子串问题的算法分析[J].计算机仿真,2007,24(12):97-100. 被引量：11
3谷重阳,徐浩煜,周晗,张俊杰.基于词汇语义信息的文本相似度计算[J].计算机应用研究,2018,35(2):391-395. 被引量：30
4田星,郑瑾,张祖平.基于词向量的Jaccard相似度算法[J].计算机科学,2018,45(7):186-189. 被引量：31
5李舟军,范宇,吴贤杰.面向自然语言处理的预训练技术研究综述[J].计算机科学,2020,47(3):162-173. 被引量：109
6陈丹华,王艳娜,周子力,赵晓函,李天宇,王凯莉.基于Word2Vec的WordNet词语相似度计算研究[J].计算机工程与应用,2022,58(3):222-229. 被引量：6
7孟金旭,单鸿涛,万俊杰,贾仁祥.BSLA:改进Siamese-LSTM的文本相似模型[J].计算机工程与应用,2022,58(23):178-185. 被引量：4
8任洁.自然语言与自然语言理解及其应用[J].科教文汇,2006(2X):69-70. 被引量：2
9王春柳,杨永辉,邓霏,赖辉源.文本相似度计算方法研究综述[J].情报科学,2019,37(3):158-168. 被引量：82

引证文献1

1魏嵬,丁香香,郭梦星,杨钊,刘辉.文本相似度计算方法综述[J].计算机工程,2024,50(9):18-32. 被引量：1

二级引证文献1

1李菊,李蒙,吴庆阳,蔡泰锋.基于相似性控制的智能出题方法及实现[J].信息与电脑,2024,36(17):205-207.

1李硕,刘贺家,刘东来,李阳.基于贝叶斯层次模型对联合分析方法的改进[J].吉林大学学报（信息科学版）,2022,40(4):657-662.
2陈可嘉,郑晶晶.基于种子约束LDA的产品属性提取方法[J].华南理工大学学报（自然科学版）,2022,50(6):37-48.

吉林大学学报（理学版）

2022年第6期

浏览历史

内容加载中请稍等...

融入新闻标题信息的新闻文本与评论的语义相似度计算方法被引量：1

参考文献10

二级参考文献84

共引文献367

同被引文献9

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

融入新闻标题信息的新闻文本与评论的语义相似度计算方法 被引量：1

参考文献10

二级参考文献84

共引文献367

同被引文献9

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

融入新闻标题信息的新闻文本与评论的语义相似度计算方法被引量：1