文本聚类中的贝叶斯后验模型选择方法被引量：21

BAYESIAN POSTERIORI MODEL SELECTION FOR TEXT CLUSTERING

下载PDF

导出

摘要对聚类分析中的模型选择特别是混合模型方法进行了较全面地介绍与总结 ,对其中的关键技术逐一进行了讨论 .在此基础上 ,提出了贝叶斯后验模型选择方法 ,并把它与文档产生特征序列的物理模型相结合 ,给出了一个用于聚类分析的概率模型 .对真实文本数据的测试中该模型取得了非常好的效果 . A complete introduction to the model selection, ad hoc the mixture model, for clustering analysis is included in this paper, and the key related technologies are discussed seriatim, Based on these, the author introduces the Bayesian posteriori model selection, which reduces the complexity of the algorithm based on the mixture model and improves the precision (against the traditional model selection). To estimate the parameters in the posteriori model, two different Bayesian estimation methods, maximum likelihood estimation, and conditional expectation estimation, are compared. The posteriori model based hierarchical clustering algorithms are described, with the analysis of the domain itself. Results of high accuracy have been achieved in experiments for real world text clustering.

作者姜宁史忠植

机构地区中国科技大学研究生院计算机学部中国科学院计算技术研究所

出处《计算机研究与发展》 EI CSCD 北大核心 2002年第5期580-587,共8页 Journal of Computer Research and Development

关键词文本聚类贝叶斯后验模型选择混合模型贝叶斯估计人工智能 text clustering, Bayesian posteriori model selection, mixture model, expectation maximization, Bayesian estimation

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献13

1[1]H H Bock.Probabilistic models in cluster analysis.Computational Statistics & Data Analysis,1996,23:5～28
2[2]Chris Fraley,Adrian E Raftery.Model-based clustering,discriminate analysis,and density estimation.Department of Statistics,University of Washington,Tech Rep:380,2000
3[3]Petri T Kontkanen,Petri J Myllymaki,Henry R Tirri.Comparing Bayesian model class selection criteria by discrete finite mixtures.In:D L Dowl,K B Korb,J J Oliver eds.Information,Statistics and Induction in Science (Proc of the ISIS'96 Conf in Melbourne.Australia,1996).Singapore:World Scientific,1996.364～374
4[4]An Introduction to Cluster Analysis for Data Mining.http://www.cs.umn.edu/classes/Spring-2000/csci5980-dm/cluster-survey.pdf
5[5]高等数理统计.超星数字图书馆.http://www.ssreader.com.cn.442～444(Advanced Mathematical Statistics (in Chinese),Superstar Digital Library.http://www.ssreader.com.cn.442～444)
6[6]Jeff A Bilmes.A gentle tutorial of the EM algorithm and its application to parameter estimation for Gaussian mixture and hidden Markov models.Computer Science Division Department of Electrical Engineering and Computer Science,U C Berkeley,Tech Rep:TR-97-021,1998
7[7]R E Kass,A E Raftery.Bayesian factors and model uncertainly.Department of Statistics,Carnegie-Mellon University,Tech Rep:571,1993
8[8]I J Good.Weight of evidence:A brief survey.In:J M Bernade ed.Bayesian Statistics 2.New York:Elsevier,1985.249～269
9[9]贝叶斯统计推断.超星数字图书馆.http://www.ssreader.com.cn(Bayesian Inferential Statistics (in Chinese).Superstar Digital Library.http://www.ssreader.com.cn)
10[10]P Cheeseman,J Stutz.Bayesian Classification (AutoClass):Theory and results.In:U M Tayyad ed.Knowledge Discovery in Data Bases II.AAAI Press /The MIT Press,1995.153～180

同被引文献125

1陈铭.后基因组时代的生物信息学[J].生物信息学,2004,2(2):29-34. 被引量：41
2冯力,管晓宏,郭三刚,高艳,刘培妮.采用规划识别理论预测系统调用序列中的入侵企图[J].计算机学报,2004,27(8):1083-1091. 被引量：11
3徐建锁,王正欧.基于LSI和自组织神经网络的高效文本聚类方法[J].天津大学学报（自然科学与工程技术版）,2004,37(11):1026-1030. 被引量：7
4刘涛,吴功宜,陈正.一种高效的用于文本聚类的无监督特征选择算法[J].计算机研究与发展,2005,42(3):381-386. 被引量：37
5陈浩,何婷婷,姬东鸿.基于k-means聚类的无导词义消歧[J].中文信息学报,2005,19(4):10-16. 被引量：16
6杨峰,周宁,吴佳鑫.基于信息可视化技术的文本聚类方法研究[J].情报学报,2005,24(6):679-683. 被引量：18
7陈涛,谢阳群.文本分类中的特征降维方法综述[J].情报学报,2005,24(6):690-695. 被引量：79
8赵亚琴,周献中.一种基于小生境遗传算法的中文文本聚类新方法[J].计算机工程,2006,32(6):206-208. 被引量：4
9焦翠珍,戴文华.基于混合并行遗传算法的多目标约束优化技术研究[J].沈阳农业大学学报,2006,37(1):125-127. 被引量：2
10谭义红,李学勇,陈治平.关联规则挖掘在Web信息检索中的应用[J].计算机工程,2006,32(9):57-58. 被引量：4

引证文献21

1况夯,罗军.基于遗传FCM算法的文本聚类[J].计算机应用,2009,29(2):558-560. 被引量：5
2徐建锁,王正欧.基于LSI和自组织神经网络的高效文本聚类方法[J].天津大学学报（自然科学与工程技术版）,2004,37(11):1026-1030. 被引量：7
3方新,穆志纯,陈静,杜大鹏.基于汉字与部件聚类的计算机模拟研究[J].计算机应用,2005,25(12):2951-2953.
4赵亚琴,周献中.一种基于小生境遗传算法的中文文本聚类新方法[J].计算机工程,2006,32(6):206-208. 被引量：4
5王晓晔,孙济洲.一种时间序列表示算法及其在聚类中的应用[J].系统工程与电子技术,2006,28(8):1266-1269. 被引量：2
6杨学明.Web中文文本聚类研究及实现[J].现代图书情报技术,2006(12):81-84. 被引量：8
7郑煜,钱榕.Web文本聚类算法WTCA的研究与实现[J].计算机工程与应用,2007,43(4):170-172. 被引量：1
8董晓莉,顾成奎,王正欧.基于形态的时间序列相似性度量研究[J].电子与信息学报,2007,29(5):1228-1231. 被引量：34
9何婷婷,戴文华,焦翠珍.基于混合并行遗传算法的文本聚类研究[J].中文信息学报,2007,21(4):55-60. 被引量：11
10戴文华,何婷婷,焦翠珍.基于小生境混合遗传算法的文本特征词聚类研究[J].计算机科学,2008,35(1):202-203.

二级引证文献133

1邹金串.基于模式数量距离的时间序列相似性度量方法[J].广东经济,2017,0(4X):168-170.
2孙辉,陈晓云,马志新.基于语句-词条矩阵的聚簇式动态增长聚类算法[J].清华大学学报（自然科学版）,2005,45(S1):1814-1817. 被引量：1
3刘海峰,姚泽清,汪泽焱,张学仁.基于位置的文本特征加权方法研究[J].微电子学与计算机,2009,26(2):188-192. 被引量：9
4包研科,赵凤华.多标度数据轮廓相似性的度量公理与计算[J].辽宁工程技术大学学报（自然科学版）,2012,31(5):797-800. 被引量：9
5杨晟,李学军,刘涛,王珏.高分辨率遥感影像匹配中的相似性度量综述[J].测绘与空间地理信息,2013,36(5):16-21. 被引量：2
6孙祖和.企业应做好员工职业生涯规划[J].人才资源开发,2005(6):58-58.
7夏咏梅.基于文本挖掘的分类与聚类技术[J].情报探索,2005(3):65-67. 被引量：9
8朱红灿,孟志青.一种基于SOM和层次凝聚的中文文本聚类方法[J].湘潭大学自然科学学报,2005,27(3):36-40. 被引量：8
9杨峰,周宁,吴佳鑫.基于信息可视化技术的文本聚类方法研究[J].情报学报,2005,24(6):679-683. 被引量：18
10陈明晶,姚建荣,唐志豪.电子商务系统的商品搜索算法研究[J].计算机工程与应用,2006,42(3):209-211. 被引量：5

1刘春阳,张泽浩,柳长安,吴华.基于数据扩展的动态贝叶斯网络预测方法[J].华中科技大学学报（自然科学版）,2015,43(S1):81-83 87. 被引量：1
2王有为,张健斌.一种新的层次结构网站用户兴趣模式变化识别算法[J].系统工程理论与实践,2008,28(10):89-95. 被引量：4
3胡雯,郑霖,仇洪冰,覃秀英.基于生成树的无线传感器网络时钟同步算法[J].计算机应用研究,2012,29(10):3876-3878. 被引量：2
4侯建华,熊承义,田金文,柳健.图像小波系数的高斯混合模型研究[J].计算机应用,2006,26(3):579-581. 被引量：4
5张文超,李亚芬,王普.贝叶斯的决策树剪枝算法在学科评审中的研究[J].计算机工程与设计,2013,34(11):3873-3877. 被引量：3
6吴昌钱,洪欣.一种改进的基于社团发现的贝叶斯众包模型[J].湘潭大学自然科学学报,2015,37(4):87-91.
7王汝言,吴晴,熊余,赵莹.基于贝叶斯征兆解释度的链路故障定位算法[J].计算机应用研究,2013,30(3):712-714. 被引量：6
8宁永成,侯代文.递推的贝叶斯估计方法[J].四川兵工学报,2013,34(10):130-136. 被引量：6
9申屠晗,薛安克,骆吉安.多步历史估计信息反馈多模型融合方法[J].控制理论与应用,2015,32(1):11-17. 被引量：1
10马飒飒,陈自力,赵守伟.软件可靠性及可靠性多模型综合研究[J].微计算机信息,2006,22(06X):263-265. 被引量：11

计算机研究与发展

2002年第5期

浏览历史

内容加载中请稍等...

文本聚类中的贝叶斯后验模型选择方法被引量：21

参考文献13

同被引文献125

引证文献21

二级引证文献133

相关作者

相关机构

相关主题

浏览历史

文本聚类中的贝叶斯后验模型选择方法 被引量：21

参考文献13

同被引文献125

引证文献21

二级引证文献133

相关作者

相关机构

相关主题

浏览历史

文本聚类中的贝叶斯后验模型选择方法被引量：21