期刊文献+

基于LDA的多特征融合的短文本相似度计算 被引量:8

Multi-feature Fusion for Short Text Similarity Calculation Based on LDA
下载PDF
导出
摘要 近年来,LDA(Latent Dirichlet Allocation)主题模型通过挖掘文本的潜在语义主题进行文本表示,为短文本的相似度计算提供了新思路。针对短文本特征稀疏,应用LDA主题模型易导致文本相似度计算结果缺乏准确性的问题,提出了基于LDA的多特征融合的短文本相似度算法。该方法融合了主题相似度因子ST(Similarity Topic)和词语共现度因子CW(Co-occurrence Words),建立了联合相似度模型以规约不同ST区间下CW对ST产生的约束或补充条件,并最终权衡了准确性更高的相似度结果。对改进后的算法进行文本聚类实验,结果表明改进后的算法在F度量值上取得了一定程度的提升。 In recent years,latent dirichlet allocation(LDA)topic model provides a new idea for short text similarity calculation by mining the latent semantic themes of text.In view of the sparse features of short text,because the application of LDA theme model may easily lead to inaccurate results of similarity computation,this paper presented a calculation method based on LDA model combining similarity topics factor ST and co-occurrence words factor CW to establish union similarity model.In the protocol of different ST intervals,CW generates constraint or supplementary conditions to ST,and obtains higher accuracy of text similarity.A text clustering experiment was used to verify the method.The experimental results show that the proposed method gains a certain improvement of F measure value.
作者 张小川 余林峰 张宜浩 ZHANG Xiao-chuan;YU Lin-feng;ZHANG Yi-hao(College of Computer Science and Engineering,Chongqing University of Technology,Chongqing 401320,China)
出处 《计算机科学》 CSCD 北大核心 2018年第9期266-270,共5页 Computer Science
基金 国家自然科学基金(60443004) 重庆市重大科技项目(cstc2013jcsf-jcssX0020) 重庆市基础科学与前沿技术研究计划项目(cstc2015jcyjA40041)资助
关键词 LDA 主题模型 短文本相似度 主题相似度 词语共现度 LDA Topic model Short text similarity Similarity topics Co-occurence words
  • 相关文献

参考文献7

二级参考文献128

  • 1王燕.一种改进的K-means聚类算法[J].计算机应用与软件,2004,21(10):122-123. 被引量:9
  • 2刘涛,吴功宜,陈正.一种高效的用于文本聚类的无监督特征选择算法[J].计算机研究与发展,2005,42(3):381-386. 被引量:37
  • 3姜园,张朝阳,仇佩亮,周东方.用于数据挖掘的聚类算法[J].电子与信息学报,2005,27(4):655-662. 被引量:68
  • 4樊兴华,孙茂松.一种高性能的两类中文文本分类方法[J].计算机学报,2006,29(1):124-131. 被引量:70
  • 5谭松波,王月粉.中文文本分类语料库-TanCorpv1.0[EB/OL].(2007-08-29)[2008-01-20].http://www.searehforum:org.cn/tansongbo/corpus.htm.
  • 6张华平.计算所汉语词法分析系统ICTCLAS[EB/OL].[2002-08-16].http://www.nip.org.cn/project/project.php?pwj_id=6.
  • 7Tversky A. Features of Similarity [J]. Psychological Review, 1977,84(4) : 327-352.
  • 8Budanitsky A, Hirst G. Evaluating wordnet-based measures of lexical semantic relatedness [ J ]. Computational Linguistics, 2006,32(1) : 13-47.
  • 9Sussna M. Word sense disambiguation for free-text indexing using a massive semantic network[C]//Proceedings of the Second International Conference on Information and Knowledge Management(CIKM-93). Arlington,Virginia, 1993:67 74.
  • 10Corley C, Mihalcea R. Measuring the semantic similarity of texts [C]//Proceedings of the ACL Workshop on Empirical Modeling of Semantic Equivalence and Entailment. Ann Arbor, MI, US, June 2005 : 13-18.

共引文献250

同被引文献57

引证文献8

二级引证文献33

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部