期刊文献+

基于改进的潜在语义分析的文本聚类 被引量:5

Text clustering based on improved latent semantic analysis
下载PDF
导出
摘要 文本聚类中不同文本表示方法获得的聚类效果不尽相同。引入潜在语义分析模型对文本进行表示,重新给出了针对潜在语义分析的特征权重计算方法,并提出了截断奇异值分解中K值的选取方法,达到了"词-文本"空间的降维去噪目的。鉴于K-means算法中初始聚类中心选取具有一定的随机性,应用相似性初始聚类中心选取方法确定了K-means的初始聚类中心,避免了随机选取聚类中心对聚类效果的影响。基于改进的潜在语义分析方法极大的降低了文本空间的维度,经实验证明改进后的方法在聚类问题中聚类效果显著。 In text clustering, different text representations have different clustering effects. Latent semantic analysis model is introduced to express text. The weight formula is re-given and K value selection method is proposed in truncated singular value decomposition, aiming to reduce "word-text" space dimension and remove "noise". In view of the randomness of initial clustering centers selection in K-means algorithm, similarity of initial clustering centers selection method is used to determine initial clustering centers, which avoids interference of random selection of clustering centers on clustering effect. Improved latent semantic analysis method greatly reduces text space dimension. Experiments show that the improved latent semantic analysis method in clustering problem makes a significant clustering effect.
出处 《北京信息科技大学学报(自然科学版)》 2012年第3期21-25,共5页 Journal of Beijing Information Science and Technology University
基金 国家自然科学基金项目资助(60872133) 北京市自然科学基金项目资助(4092015) 北京市教委科技发展计划项目资助(KM201110772021) 国家科技支撑计划课题资助(2011BAH11B03)
关键词 潜在语义分析 权重计算 奇异值分解 K-MEANS 文本聚类 latent semantic analysis weight calculation singular value decomposition K-means text clustering
  • 相关文献

参考文献9

  • 1岳丽华,杨冬青,龚育昌,等.数据库系统全书[M].北京:机械工业出版社,2006:693-699.
  • 2Makkonen J , Ahonen-Myka H, Salmenkivi M. Simple semantics in topic detection and tracking[ J]. Information Retrieval, 2004, 7 : 347 - 368.
  • 3Murata T. Petri nets : properties, analysis and applications [ J ]. Pmc IEEE, 1989,77 ( 1 ) : 541 - 580.
  • 4高宏宾,杨海振,张小彬.一种改进的文本聚类方法[J].自动化技术与应用,2008,27(9):30-32. 被引量:3
  • 5Dumais S T. Using latent semantic analysis to improve information retrieval [ C ] // Proceedings of the ACM Conference on Human Factors in Computing Systems. Washington D C, USA: ACM Press, 1988:281 -285.
  • 6任姚鹏,陈立潮,张英俊,谢斌红.基于潜在语义分析的构件聚类改进方法[J].计算机工程,2011,37(4):67-69. 被引量:9
  • 7鲁松,李晓黎,白硕,王实.文档中词语权重计算方法的改进[J].中文信息学报,2000,14(6):8-13. 被引量:120
  • 8霍琳琳.基于潜在语义分析的智能检索系统[D].上海:上海师范大学,2007.
  • 9张胜,许宝杰.神经网络模糊聚类方法在故障诊断中的应用[J].北京信息科技大学学报,2011,26(2):3-4.

二级参考文献14

  • 1张玉芳,彭时名,吕佳.基于文本分类TFIDF方法的改进与应用[J].计算机工程,2006,32(19):76-78. 被引量:121
  • 2何峰.一种基于粗糙集理论的文本分类方法[J].自动化与信息工程,2006,27(3):1-3. 被引量:4
  • 3胡双演,李俊山,李建军.基于潜在语义分析的视频检索[J].计算机工程,2007,33(13):216-217. 被引量:3
  • 4Prieto-Diaz R. hnplementing Faceted Classification for Software Reuse[J]. Communications of the ACM, 1991, 34(5): 88-97.
  • 5Dumais S T. Using Latent Semantic Analysis to Improve Information Retrieval[C]//Proceedings of the ACM Conference on Human Factors in Computing Systems. Washington D. C, USA: ACM Press, 1988: 281-285.
  • 6Yang Yiming,ProceedingsoftheSeventeenthInternationalACMSIGIRConferenceonResearchandDevelopme,1994年,12页
  • 7KRISHNAPURAM R,JOSHI A,Yi L.A Fuzzy Relative of the k-Medoids Algorithm with Application to web Document and Snippet Clustering[A].Korea.Proc,IEEE Intl. Conf.Fuzzy Systems FUZZ IEEE [C]1999,1999-08.
  • 8PAWAN LINGRAS. Unsupervised Rough Set Classification Using Gas[J]. Journal of Intelligent Information Systems. 2001 (16) : 215-228.
  • 9PAWAN LINGRAS.Rough Set clustering for web mining[C].Proc of the 2002 IEEE conf.on Fuzzy Systems, 2002, Vol. 2, 1039-1044.
  • 10刘勇,刘虹.基于库存管理领域的软件复用技术[J].计算机工程,2007,33(21):270-272. 被引量:3

共引文献129

同被引文献42

  • 1徐建锁,王正欧.基于LSI和自组织神经网络的高效文本聚类方法[J].天津大学学报(自然科学与工程技术版),2004,37(11):1026-1030. 被引量:7
  • 2余正涛,樊孝忠,郭剑毅,耿增民.基于潜在语义分析的汉语问答系统答案提取[J].计算机学报,2006,29(10):1889-1893. 被引量:44
  • 3中国电子商务研究中心.农业类网站数量已超过4万家[EB/OL].2013-04-22.http://b2b.toocle.com/detail--6095919.html.
  • 4Approximation.Lucene中文分析器的中文分词准确性和性能比[EB/OL].2009-03-06.http://approximation.iteye.com/blog/345885.
  • 5Liu Hongzhe, Bao Hong, Xu De. Concept vector for semantic similarity and relatedness based on WordNet structure [ J ]. Journal of Systems and Software,2012,85 (2) : 370-381.
  • 6Landauer T K, McNamara D S, Dennis S, et al. Handbook of latent semantic analysis [ M ]. [ s. 1. ] : Lawrence Erlbaum As- sociates .2007.
  • 7DUMAIS S T, FURNAS G W, LANDAUER T K, et al. Using latent semantic analysis to improve access to textual information [ C]//Proceedings of the SIGCHI conference on Human factors in computing systems. ACM, 1988:281 -285.
  • 8瞿琳琳.基于潜在语义分析的智能检索系统[D].上海:上海师范大学,2007:58-59.
  • 9YU Chun-li. Using latent semantic indexing for an online research interest matching system[ C ]. International Conference on Ad- vanced Information Engineering and Education Science. Atlantis Press, 2013:109 -112.
  • 10吴金学.基于概率潜在语义分析的文本聚类研究[J].青岛理工大学学报,2008,29(2):95-99. 被引量:3

引证文献5

二级引证文献54

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部