摘要
围绕文本聚类中的文本表示和相似度计算两个基本的问题,对目前学界提出的文本表示方法和相似度计算方法进行了分类和较为全面的综述,将文本表示模型分为向量空间模型、语言模型、后缀树模型、本体等,相似度计算方法分为基于向量空间模型的相似度计算,基于短语的相似度计算方法和基于本体的相似度计算方法。
The two basic problems of text clustering are text representation and similarity calculation.In this paper,We classified the different text representation models and the methods of similarity calculation and summarized them detailedly.This paper classified the present text representation models as VSM,language model,suffix tree model and ontology,classified the methods of similarity calculation as three categories,including VSM-based method,phrase-based method and ontology-based method.
出处
《情报科学》
CSSCI
北大核心
2012年第4期622-627,共6页
Information Science
基金
国家社科基金项目(10CTQ027)
教育部人文社会科学研究规划基金项目(07JA870006)
中国科学技术信息研究所合作研究项目
关键词
文本聚类
文本表示
相似度计算
text clustering
text representation
similarity calculation