摘要
为了弥补目前微博平台主题挖掘方法的不足,兼顾到微博信息的稀疏性、多维性、海量性等特点,提出根据微博信息特点进行有针对性的预处理后,使用基于先验概率的潜在语义分析模型LDA(Latent Dirichlet Alloca-tion)进行微博主题挖掘,并在LDA建模的基础上,设计文本增量聚类算法,进一步实现主题结构的识别,从而使用户更好地理解主题及其结构。通过在真实微博数据集上的实验,证明该模型能有效进行主题挖掘和主题结构的识别。
Microblog platforms have deficiencies in topic mining method currently, and the microblog information is sparse, muhidimensional and mass. This paper proposes to apply prior probability - based LAD ( Latent Dirichlet Allocation) model on microblog topic mining after preprocessing the dataset in light of the characteristic of information. On the basis of the LDA modeling,this paper designs an incremental clustering algorithm to identify the topic structure, so that the user could better understand the topic and its structure. Through experiment in real microblog dataset, it proves that the model can mine the topic and give the topic structure efficiently and comprehensively.
出处
《图书情报工作》
CSSCI
北大核心
2012年第24期114-119,共6页
Library and Information Service
基金
国家自然科学基金资助项目"社会化媒体集成检索与语义分析方法研究"(项目编号:71273194)
教育部人文社会科学重点研究基地重大项目"面向决策的企业信息资源集成研究"(项目编号:2009JJD870002)研究成果之一
关键词
微博
短文本
主题挖掘
LDA模型
增量聚类
I microblog short text topic mining LDA model incremental clustering