文本聚类中文本表示和相似度计算研究综述被引量：23

A Survey on Text Representation and Similarity Calculation in Text Clustering

导出

摘要围绕文本聚类中的文本表示和相似度计算两个基本的问题,对目前学界提出的文本表示方法和相似度计算方法进行了分类和较为全面的综述,将文本表示模型分为向量空间模型、语言模型、后缀树模型、本体等,相似度计算方法分为基于向量空间模型的相似度计算,基于短语的相似度计算方法和基于本体的相似度计算方法。 The two basic problems of text clustering are text representation and similarity calculation.In this paper,We classified the different text representation models and the methods of similarity calculation and summarized them detailedly.This paper classified the present text representation models as VSM,language model,suffix tree model and ontology,classified the methods of similarity calculation as three categories,including VSM-based method,phrase-based method and ontology-based method.

作者吴夙慧成颖郑彦宁潘云涛

机构地区南京大学信息管理系中国科学技术信息研究所

出处《情报科学》 CSSCI 北大核心 2012年第4期622-627,共6页 Information Science

基金国家社科基金项目(10CTQ027) 教育部人文社会科学研究规划基金项目(07JA870006) 中国科学技术信息研究所合作研究项目

关键词文本聚类文本表示相似度计算 text clustering text representation similarity calculation

分类号 G350 [文化科学—情报学]

引文网络
相关文献

参考文献43

1尉景辉,何丕廉,孙越恒.基于K-Means的文本层次聚类算法研究[J].计算机应用,2005,25(10):2323-2324. 被引量：18
2姚清耘,刘功申,李翔.基于向量空间模型的文本聚类算法[J].计算机工程,2008,34(18):39-41. 被引量：50
3Salton G,Wong A,Yang C S.A Vector Space Model for Auto matic Indexing[J].Communication of the ACM,1975,18(11):613-620.
4Salton G,Clement T Y.On the Construction of Effective Vo cabularies for Information Retrieval[EB/OL].http://dl.acm.org/citation.cfm?id=951766,2011-02-04.
5Ponte J M,Croft W B.A Language Modeling Approach to In formation Retrieval[EB/OL].http://dl.acm.org/citation.cfm?id=291008,2011,02-04.
6Zhang X,Zhou X,Hu X.Semantic Smoothing for Model-based Document Clustering[EB/OL].http://www.cis.drexel.edu/facul ty/thu/research-papers/ICDM2006_Clustering.pdf,2011,02-04.
7Zhou X,Zhang X,Hu X.Semantic Smoothing of Document Models for Agglomerative Clustering[EB/OL].http://ijcai.sci ence.unitn.it/Past_Proceedings/IJCAI-2007/PDF/IJCAI07-470.pdf,2011-02-04.
8Wen J,Li Z.Research on Mixture Language Model-based Document Clustering[EB/OL].http://ieeexplore.ieee.org/xpls/abs_all.jsp?arnumber=4664755,2011-02-04.
9Weiner P.Linear pattern matching algorithms[EB/OL].http://airelles.i3s.unice.fr/files/Weiner.pdf,2011-02-06.
10Zamir O,Etzioni O.Web Document Clustering[EB/OL].http://dl.acm.org/citation.cfm?id=290956,2011-02-06.

二级参考文献110

1张敏,宋睿华,马少平.基于语义关系查询扩展的文档重构方法[J].计算机学报,2004,27(10):1395-1401. 被引量：55
2郭伟,唐晓君,刘万军.一种基于划分的聚类算法分析与改进[J].辽宁工程技术大学学报（自然科学版）,2004,23(6):826-828. 被引量：4
3宋峻峰,张维明,肖卫东,唐九阳.基于本体的信息检索模型研究[J].南京大学学报（自然科学版）,2005,41(2):189-197. 被引量：44
4吴健,吴朝晖,李莹,邓水光.基于本体论和词汇语义相似度的Web服务发现[J].计算机学报,2005,28(4):595-602. 被引量：218
5荀恩东,颜伟.基于语义网计算英语词语相似度[J].情报学报,2006,25(1):43-48. 被引量：41
6张承立,陈剑波,齐开悦.基于语义网的语义相似度算法改进[J].计算机工程与应用,2006,42(17):165-166. 被引量：38
7杜小勇,李曼,王珊.本体学习研究综述[J].软件学报,2006,17(9):1837-1847. 被引量：242
8徐德智,王怀民.基于本体的概念间语义相似度计算方法研究[J].计算机工程与应用,2007,43(8):154-156. 被引量：34
9曹泽文,钱杰,张维明,邓苏.一种综合的概念相似度计算方法[J].计算机科学,2007,34(3):174-175. 被引量：35
10黄果,周竹荣,周亭.基于领域本体的语义相似度计算研究[J].计算机工程与科学,2007,29(5):112-117. 被引量：21

共引文献187

1裴培,丁雪晶.基于本体的语义相似度计算综述[J].合肥学院学报（综合版）,2020(5):68-74. 被引量：3
2胡哲,郑诚.一种改进的基于领域本体的概念语义相似度算法[J].齐齐哈尔大学学报（自然科学版）,2013,29(1):1-6. 被引量：1
3周利民,童珉,陈燕双.面向互联网视频主题管理的搜索引擎关键技术研究及实现[J].广播与电视技术,2014,41(6):31-35. 被引量：1
4龚静,李英杰.文本聚类算法的分析与比较[J].湖南环境生物职业技术学院学报,2006,12(3):283-286. 被引量：2
5索红光,杨涛.基于互信息的Web文档聚类方法[J].广西师范大学学报（自然科学版）,2007,25(2):131-134. 被引量：3
6史庆伟,赵政,鲍虎.基于条件随机域的Web信息抽取[J].辽宁工程技术大学学报（自然科学版）,2007,26(4):570-572. 被引量：2
7雷艺学,曾志民,田洪现.IEEE 802.16e协议调度服务性能模拟研究[J].辽宁工程技术大学学报（自然科学版）,2007,26(5):744-747.
8史庆伟,赵政,鲍虎.基于全置信度关联分析的web层次聚类方法[J].辽宁工程技术大学学报（自然科学版）,2007,26(6):892-894. 被引量：2
9戴维迪,王文俊,侯越先,王英,张璐.Document Clustering Based on Constructing Density Tree[J].Transactions of Tianjin University,2008,14(1):21-26.
10李启元,杨亚桥,杨露菁.基于聚类的海战场目标分群方法[J].微计算机信息,2008,24(15):42-43. 被引量：7

同被引文献357

1王小华,沈杰,王荣波.一种新的基于蚁群和凝聚的混合聚类算法[J].杭州电子科技大学学报（自然科学版）,2010,30(1):26-29. 被引量：3
2闫强,孟跃.在线评论的感知有用性影响因素——基于在线影评的实证研究[J].中国管理科学,2013,21(S1):126-131. 被引量：67
3章诚,张爱梅,周丽娟.画龙点睛:学术论文关键词的科学选取[J].编辑之友,2015(9):73-76. 被引量：7
4吴帆,李石君.一种高效的层次聚类分析算法[J].计算机工程,2004,30(9):70-71. 被引量：13
5朱克斌,唐菁,杨炳儒.Web文本挖掘系统及聚类分析算法[J].计算机工程,2004,30(13):138-139. 被引量：7
6王怡,盖杰,武港山,王继成.基于潜在语义分析的中文文本层次分类技术[J].计算机应用研究,2004,21(8):151-154. 被引量：15
7谌志群,张国煊.文本挖掘研究进展[J].模式识别与人工智能,2005,18(1):65-74. 被引量：49
8金博,史彦军,滕弘飞.基于语义理解的文本相似度算法[J].大连理工大学学报,2005,45(2):291-297. 被引量：80
9顾益军,樊孝忠,王建华,汪涛,黄维金.中文停用词表的自动选取[J].北京理工大学学报,2005,25(4):337-340. 被引量：35
10傅兰生.科技期刊论文题名、作者、文摘、关键词等有关国家标准的应用分析[J].现代图书情报技术,1995(4):38-40. 被引量：2

引证文献23

1崔君君,于林森,李鹏.协同视觉信息与标注信息图像聚类[J].哈尔滨理工大学学报,2014,19(2):57-62. 被引量：3
2胡朝清.K-means算法研究[J].长春工业大学学报,2014,35(2):139-142. 被引量：4
3武森,冯小东,杨杰,张晓楠.基于MapReduce的大规模文本聚类并行化[J].北京科技大学学报,2014,36(10):1411-1419. 被引量：9
4顾晓雪,章成志.结合内容和标签的Web文本聚类研究[J].现代图书情报技术,2014(11):45-52. 被引量：8
5王方,成颖,柯青.基于混合模型的文本聚类研究综述[J].情报学报,2015,34(5):536-548.
6张海涛,周爱武.蚁群算法在文本聚类中的应用研究[J].微电子学与计算机,2016,33(1):81-84. 被引量：6
7汤洋,汤敏倩.网络招聘信息中职业类型与专业领域的情报分析[J].情报杂志,2017,36(6):72-77. 被引量：11
8陈龙,徐建,于亚男,胡建洪.基于话题相似性改进的K-means新闻话题聚类[J].计算机与数字工程,2017,45(8):1560-1565. 被引量：7
9张紫玄,王雪颖,王昊.题名与关键词在文献内容揭示中的对比研究——基于农产品品牌评价领域[J].情报科学,2017,35(10):88-93. 被引量：13
10李玖一,于洪志,徐涛.藏文文本聚类及其相关技术综述[J].广西科学院学报,2018,34(1):39-45.

二级引证文献114

1何强,邓鑫,李川,严中成,漆雁斌.农产品品牌提高农业竞争力的机理与实证分析——以四川省91个县域的农产品地理标志为例[J].中国农业资源与区划,2023,44(1):241-252. 被引量：15
2丁楠,曹玮倬,相甍甍.基于SBM-Malmquist的技术问答社区知识交流效率测度研究[J].知识管理论坛,2022(2):101-115.
3薛潇.船舶水下通信系统中海声信道文本数据聚类方法研究[J].舰船科学技术,2019,0(20):115-117.
4赵蓉英,王嵩,董克.国内馆藏资源聚合模式研究综述[J].图书情报工作,2014,58(18):138-143. 被引量：21
5钱政.Android平台下基于改进的K-means酒店信息聚类算法[J].淮海工学院学报（自然科学版）,2014,23(4):22-25. 被引量：2
6王华秋,聂珍,王斌.数字图书馆的语义图像检索综述[J].图书馆理论与实践,2015(4):6-10. 被引量：4
7黄凌云.图书馆数字资源自动推荐优化算法研究[J].情报探索,2016(2):25-29. 被引量：1
8李兰英,董义明,孔银,周秋丽.改进K-means算法的MapReduce并行化研究[J].哈尔滨理工大学学报,2016,21(1):31-35. 被引量：7
9王雪,廖飞佳,李国东,郭坤.雹云图像的识别指标设计[J].哈尔滨理工大学学报,2016,21(1):45-50. 被引量：3
10洪文,聂延平,青巧.馆藏资源自动推荐模型结构与处理流程优化分析[J].情报理论与实践,2016,39(5):130-133. 被引量：1

1吴思竹,张智雄,钱庆.基于语言网络的文本表示模型研究[J].情报科学,2013,31(12):119-125.
2杨志墨,刘怀亮,赵辉.一种基于复杂网络的中文文本表示算法[J].现代图书情报技术,2014(11):38-44. 被引量：3
3李生,赵铁军,周明,王跃进,邱祥辉.机器翻译语言模型的探讨[J].情报科学,1989,10(3):19-22.
4范晓莉,张志平.基于后缀树的西文二次文献相关性算法设计[J].情报杂志,2009,28(6):155-158.
5张小艳,宋丽平.论文本分类中特征选择方法[J].现代情报,2009,29(3):131-133. 被引量：2
6曲云鹏,王文玲.词汇链文本表示模型计算方法综述[J].知识管理论坛,2016(2):136-144. 被引量：1
7王晓升.科学认识活动中的语言模型[J].自然辩证法研究,1995,11(11):22-26.
8肖可,奉国和.1999～2008年国内文本分类研究文献计量分析[J].情报学报,2010,29(4):679-687. 被引量：6
9邵健,章成志.文本表示方法对微博Hashtag推荐影响研究——以Twitter上H7N9微博为例[J].图书与情报,2015(3):17-25. 被引量：1
10赵俊杰.论文抄袭检测中特征选择[J].计算机系统应用,2009,18(9):101-103. 被引量：3

情报科学

2012年第4期

浏览历史

内容加载中请稍等...

文本聚类中文本表示和相似度计算研究综述被引量：23

参考文献43

二级参考文献110

共引文献187

同被引文献357

引证文献23

二级引证文献114

相关作者

相关机构

相关主题

浏览历史

文本聚类中文本表示和相似度计算研究综述 被引量：23

参考文献43

二级参考文献110

共引文献187

同被引文献357

引证文献23

二级引证文献114

相关作者

相关机构

相关主题

浏览历史

文本聚类中文本表示和相似度计算研究综述被引量：23