基于LDA的多特征融合的短文本相似度计算被引量：8

Multi-feature Fusion for Short Text Similarity Calculation Based on LDA

下载PDF

导出

摘要近年来,LDA(Latent Dirichlet Allocation)主题模型通过挖掘文本的潜在语义主题进行文本表示,为短文本的相似度计算提供了新思路。针对短文本特征稀疏,应用LDA主题模型易导致文本相似度计算结果缺乏准确性的问题,提出了基于LDA的多特征融合的短文本相似度算法。该方法融合了主题相似度因子ST(Similarity Topic)和词语共现度因子CW(Co-occurrence Words),建立了联合相似度模型以规约不同ST区间下CW对ST产生的约束或补充条件,并最终权衡了准确性更高的相似度结果。对改进后的算法进行文本聚类实验,结果表明改进后的算法在F度量值上取得了一定程度的提升。 In recent years,latent dirichlet allocation(LDA)topic model provides a new idea for short text similarity calculation by mining the latent semantic themes of text.In view of the sparse features of short text,because the application of LDA theme model may easily lead to inaccurate results of similarity computation,this paper presented a calculation method based on LDA model combining similarity topics factor ST and co-occurrence words factor CW to establish union similarity model.In the protocol of different ST intervals,CW generates constraint or supplementary conditions to ST,and obtains higher accuracy of text similarity.A text clustering experiment was used to verify the method.The experimental results show that the proposed method gains a certain improvement of F measure value.

作者张小川余林峰张宜浩 ZHANG Xiao-chuan;YU Lin-feng;ZHANG Yi-hao(College of Computer Science and Engineering,Chongqing University of Technology,Chongqing 401320,China)

机构地区重庆理工大学计算机科学与工程学院

出处《计算机科学》 CSCD 北大核心 2018年第9期266-270,共5页 Computer Science

基金国家自然科学基金(60443004) 重庆市重大科技项目(cstc2013jcsf-jcssX0020) 重庆市基础科学与前沿技术研究计划项目(cstc2015jcyjA40041)资助

关键词 LDA 主题模型短文本相似度主题相似度词语共现度 LDA Topic model Short text similarity Similarity topics Co-occurence words

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献7

1陈攀,杨浩,吕品,王海晖.基于LDA模型的文本相似度研究[J].计算机技术与发展,2016,26(4):82-85. 被引量：12
2刘宏哲,须德.基于本体的语义相似度和相关度计算研究综述[J].计算机科学,2012,39(2):8-13. 被引量：99
3曹恬,周丽,张国煊.一种基于词共现的文本相似度计算[J].计算机工程与科学,2007,29(3):52-53. 被引量：14
4张超,陈利,李琼.一种PST_LDA中文文本相似度计算方法[J].计算机应用研究,2016,33(2):375-377. 被引量：18
5张群,王红军,王伦文.词向量与LDA相融合的短文本分类方法[J].现代图书情报技术,2016(12):27-35. 被引量：40
6吕超镇,姬东鸿,吴飞飞.基于LDA特征扩展的短文本分类[J].计算机工程与应用,2015,51(4):123-127. 被引量：49
7胡勇军,江嘉欣,常会友.基于LDA高频词扩展的中文短文本分类[J].现代图书情报技术,2013(6):42-48. 被引量：38

二级参考文献128

1王燕.一种改进的K-means聚类算法[J].计算机应用与软件,2004,21(10):122-123. 被引量：9
2刘涛,吴功宜,陈正.一种高效的用于文本聚类的无监督特征选择算法[J].计算机研究与发展,2005,42(3):381-386. 被引量：37
3姜园,张朝阳,仇佩亮,周东方.用于数据挖掘的聚类算法[J].电子与信息学报,2005,27(4):655-662. 被引量：68
4樊兴华,孙茂松.一种高性能的两类中文文本分类方法[J].计算机学报,2006,29(1):124-131. 被引量：70
5谭松波,王月粉.中文文本分类语料库-TanCorpv1.0[EB/OL].(2007-08-29)[2008-01-20].http://www.searehforum:org.cn/tansongbo/corpus.htm.
6张华平.计算所汉语词法分析系统ICTCLAS[EB/OL].[2002-08-16].http://www.nip.org.cn/project/project.php?pwj_id=6.
7Tversky A. Features of Similarity [J]. Psychological Review, 1977,84(4) : 327-352.
8Budanitsky A, Hirst G. Evaluating wordnet-based measures of lexical semantic relatedness [ J ]. Computational Linguistics, 2006,32(1) : 13-47.
9Sussna M. Word sense disambiguation for free-text indexing using a massive semantic network[C]//Proceedings of the Second International Conference on Information and Knowledge Management(CIKM-93). Arlington,Virginia, 1993:67 74.
10Corley C, Mihalcea R. Measuring the semantic similarity of texts [C]//Proceedings of the ACL Workshop on Empirical Modeling of Semantic Equivalence and Entailment. Ann Arbor, MI, US, June 2005 : 13-18.

共引文献250

1余本功,曹雨蒙,陈杨楠,杨颖.基于nLD-SVM-RF的短文本分类研究[J].数据分析与知识发现,2020,4(1):111-120. 被引量：10
2陶志勇,李小兵,刘影,刘晓芳.基于双向长短时记忆网络的改进注意力短文本分类方法[J].数据分析与知识发现,2019,3(12):21-29. 被引量：23
3裴培,丁雪晶.基于本体的语义相似度计算综述[J].合肥学院学报（综合版）,2020(5):68-74. 被引量：3
4辛颖梅,钱海峰,倪魏巍,徐冬梅,孙志挥.关于专利类别间相似度量化方法的研究[J].科技创新导报,2009,6(15):90-92. 被引量：2
5魏程,刘鲁,翟铭.一种四维向量空间模型的Web新闻文本分类方法[J].微计算机应用,2010,31(3):58-62. 被引量：4
6周汉平.Levenshtein距离在编程题自动评阅中的应用研究[J].计算机应用与软件,2011,28(5):209-212. 被引量：7
7邹艳珍,刘昌盛,李萌,谢冰.一种基于Internet的JAR包使用信息收集方法[J].计算机科学,2011,38(6):161-164.
8常鹏,冯楠.基于词共现的文档表示模型[J].中文信息学报,2012,26(1):51-57. 被引量：8
9袁创国.浓香型白酒生产如何改造低产质窖池[J].酿酒科技,2000(3):40-41.
10邱均平,楼雯.基于共现分析的语义信息检索研究[J].中国图书馆学报,2012,38(6):89-99. 被引量：18

同被引文献57

1陶志勇,李小兵,刘影,刘晓芳.基于双向长短时记忆网络的改进注意力短文本分类方法[J].数据分析与知识发现,2019,3(12):21-29. 被引量：23
2吴健,吴朝晖,李莹,邓水光.基于本体论和词汇语义相似度的Web服务发现[J].计算机学报,2005,28(4):595-602. 被引量：218
3张莲梅,陈世鸿,陈红梅,许继红,杨璃.基于分布式电力资源库的搜索引擎框架[J].高电压技术,2005,31(8):66-68. 被引量：9
4黄承慧,印鉴,侯昉.一种结合词项语义信息和TF-IDF方法的文本相似度量方法[J].计算机学报,2011,34(5):856-864. 被引量：222
5罗芳玲.汉语和老挝语主谓宾成分的特点及比较[J].出国与就业（就业教育）,2011(16):220-221. 被引量：3
6翟延冬,王康平,张东娜,黄岚,周春光.一种基于WordNet的短文本语义相似性算法[J].电子学报,2012,40(3):617-620. 被引量：34
7贺超波,沈玉利,余建辉,林海,吴琳琳.基于学术社区的科技论文推荐方法[J].华南师范大学学报（自然科学版）,2012,44(3):55-58. 被引量：9
8吴建明.印欧语与汉语的非人称句对比研究[J].长沙大学学报,2013,27(4):112-114. 被引量：2
9雷振江,李鹏.海量历史/准实时数据管理平台的建设与应用[J].电力信息与通信技术,2013,11(9):68-73. 被引量：11
10王振振,何明,杜永萍.基于LDA主题模型的文本相似度计算[J].计算机科学,2013,40(12):229-232. 被引量：97

引证文献8

1赵增涛,张豪,余益龙.应用于电网资产模型搜索的交叉权积文本相似度计算方法[J].水利水电技术（中英文）,2020,51(S02):209-214.
2王景田,杨赴云,张月英.单胺氧化酶抑制剂及其相互作用[J].中国药学杂志,2000,35(5):351-353. 被引量：16
3石彩霞,李书琴,刘斌.多重检验加权融合的短文本相似度计算方法[J].计算机工程,2021,47(2):95-102. 被引量：11
4胡玉兰,赵青杉,牛永洁,陈莉.基于分层Attention机制的Bi-GRU中文文本分类模型[J].长春师范大学学报,2021,40(2):39-45. 被引量：1
5曹小鹏,周凯强.多头自注意力机制Siamese网络文本相似度计算方法[J].微电子学与计算机,2021,38(10):15-20. 被引量：4
6李广,刘新,马中昊,黄浩钰,张远明.融合多角度特征的文本匹配模型[J].计算机系统应用,2022,31(7):158-164. 被引量：2
7张晓晗,汤非易,顾文静,常超,毛承洁.基于密度峰值聚类标签传播的社区发现方法[J].华南师范大学学报（自然科学版）,2023,55(1):78-87.
8李炫达,周兰江,张建安.融合词性位置特征的多任务汉老双语短文本相似度计算方法[J].中文信息学报,2023,37(4):18-27.

二级引证文献33

1胡丰林,丁晓娟,杨成,李增智,樊美珍.一种白僵菌中MAO抑制剂的分离纯化和结构鉴定[J].菌物学报,2006,25(2):273-277. 被引量：7
2吴洪,黄真珠,陈秀娟,黄增平,郑勇.肼基单胺氧化酶抑制剂活性与电子结构构效关系的计算分析[J].中国生物化学与分子生物学报,2007,23(11):959-962. 被引量：1
3龙项,李浩,湛延风,冯默.中西药物相互作用探讨[J].中国中西医结合杂志,2009,29(5):457-460. 被引量：23
4左申存.探讨中心摆药过程中存在的问题和改进方向[J].安徽医药,2009,13(11):1434-1435. 被引量：5
5冯超英,陈点点.单胺氧化酶抑制剂与药物及食物间的相互作用及其配伍[J].临床误诊误治,2010,23(4):384-385. 被引量：8
6刘江,张小琴,韩隽,刘俊彪,黄锋,马彬彬,王宇光.香豆素类荧光探针在检测方面的研究进展[J].浙江化工,2010,41(9):27-31. 被引量：6
7魏宏强,康瑞,李爱玲,赵秀娟.阿立哌唑辅助氟伏沙明治疗强迫障碍的临床观察[J].中国医学创新,2013,10(11):7-9. 被引量：3
8裴英,杨中铎,李志忠,舒宗美,师音.药用植物内生真菌的分离及其次生代谢产物生物活性研究[J].中国食品工业,2013(12):64-66.
9冯建芳,王艳飞,范丽丽,张琦.储藏温度对低温发酵乳口感的影响研究[J].中国食品工业,2013(12):67-68. 被引量：1
10周文君.三种中西药复方制剂降压药的合理应用[J].安徽卫生职业技术学院学报,2016,15(3):111-112. 被引量：2

1王磊.图书馆微信公众平台推文主题传播研究[J].现代情报,2018,38(10):132-141. 被引量：18
2甘秋云.基于TF-IDF向量空间模型文本相似度算法的分析[J].池州学院学报,2018,32(3):41-43. 被引量：6
3刘震,陈晶,郑建宾,华锦芝,肖淋峰.中文短文本聚合模型研究[J].软件学报,2017,28(10):2674-2692. 被引量：11
4冯高磊,高嵩峰.基于向量空间模型结合语义的文本相似度算法[J].现代电子技术,2018,41(11):157-161. 被引量：9
5王飞雪,李芳.基于主题加权LDA模型的情感分类方法[J].西南师范大学学报（自然科学版）,2018,43(9):38-44. 被引量：4
6崔苹,宋丽,杨新凯.基于LDA主题扩展的个性化电影推荐系统[J].计算机科学与应用,2018,8(6):860-866.
7黄峰,王定军.基于文本相似度的智能工单分析系统解决方案研究[J].电子技术与软件工程,2018(19):206-207. 被引量：2
8周志伟.思维导图在高中英语记叙文阅读教学中的应用[J].校园英语,2018,0(29):108-109.
9胡检华,李平.融入用户社会关系的协同主题回归模型[J].计算机工程与应用,2018,54(19):151-157. 被引量：2
10李聪聪.浅谈医学论文汉译英翻译实践[J].校园英语,2018,0(34):236-236.

计算机科学

2018年第9期

浏览历史

内容加载中请稍等...

基于LDA的多特征融合的短文本相似度计算被引量：8

参考文献7

二级参考文献128

共引文献250

同被引文献57

引证文献8

二级引证文献33

相关作者

相关机构

相关主题

浏览历史

基于LDA的多特征融合的短文本相似度计算 被引量：8

参考文献7

二级参考文献128

共引文献250

同被引文献57

引证文献8

二级引证文献33

相关作者

相关机构

相关主题

浏览历史

基于LDA的多特征融合的短文本相似度计算被引量：8