一种基于MapReduce的文本聚类方法研究被引量：6

Text Clustering Method Study Based on MapReduce

下载PDF

导出

摘要在文本聚类中,相似性度量是影响聚类效果的重要因素。常用的相似性度量测度,如欧氏距离、相关系数等,只能描述文本间的低阶相关性,而文本间的关系非常复杂,基于低阶相关测度的聚类效果不太理想。一些基于复杂测度的文本聚类方法已被提出,但随着数据规模的扩展,文本聚类的计算量不断增加,传统的聚类方法已不适用于大规模文本聚类。针对上述问题,提出一种基于MapReduce的分布式聚类方法,该方法对传统K-means算法进行了改进,采用了基于信息损失量的相似性度量。为进一步提高聚类的效率,将该方法与基于MapReduce的主成分分析方法相结合,以降低文本特征向量的维数。实例分析表明,提出的大规模文本聚类方法的聚类性能比已有的聚类方法更好。 Text clustering is the key technology of text organization,information extraction and topic retrieval.Appropriate similarity measure selection is an important task of clustering,which has great affection on the clustering results.Classical similarity measures,such as distance function and the correlation coefficient,can only describe the linear relationship between documents.However,clustering results based on classical clustering methods are usually unsatisfactory due to the complicated relationship among text documents.Some complicated clustering methods have been studied.But,with the growing scale of text data,the computational cost increases markedly with the increase of dataset size.Classical clustering methods are out of work in dealing with large scale dataset clustering problems.In this paper,a distributed clustering method based on MapReduce was proposed to deal with large scale text clustering.Furthermore,we proposed an improved version of k-means algorithm,which utilizes information loss as the similarity function.For improving clustering speed,parallel PCA method based on MapReduce was used to reduce the document vector dimension.The experimental results demonstrate that the proposed method is more efficient for text clustering than classic clustering methods.

作者李钊李晓王春梅李诚杨春

机构地区北京交通大学软件学院山东省计算中心(国家超级计算济南中心) 山东省计算机网络重点实验室山东省电子政务大数据工程技术研究中心

出处《计算机科学》 CSCD 北大核心 2016年第1期246-250,269,共6页 Computer Science

基金国家自然科学基金项目(61472230) 山东省科技发展计划(2013GZC20102)资助

关键词文本聚类 MAPREDUCE K-MEANS 信息损失 Text clustering MapReduce K-means Information loss

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献15

1Zhang Ren-yuan, Shibata T. An analog on-line-learning K-means processor employing fully parallel self-converging cireuitry[J]. Analog Integrated Circuits and Signal Processing, 2013,75 (2): 267-277.
2Sathiyakumari K, Preamsudha V, Manimekalai G, et al. A Sur- vey on Various Approaches in Document Clustering [J]. Inter- national Journal of Computer Technology and Applications, 2011,2(5) : 1534-1539.
3向小军,高阳,商琳,杨育彬.基于Hadoop平台的海量文本分类的并行化[J].计算机科学,2011,38(10):184-188. 被引量：35
4Kannungo T, Mount D M, Netanyahu N S, et al. An Efficient K- Means Clustering Algorithm: Analysis And Implementation[J]. IEEE Transactions on Pattern Analysis and Machine Intelli- gence, 2002,24(7) : 881-891.
5Wang Da, Mazumdar A, Womell G W. A Rate-Distortion Theory For Permutation Spaces[C]//IEEE International Symposium on Information Theory Proceedings. 2013:2562-2566.
6Sun Zhan-quan,Geoffrey F, Gu Wei-dong, et al. A parallel clus- tering method combined information bottleneck theory and cen- troid-based clustering [J]. The Journal of Supercomputing, 2014,69 (1) .. 452-467.
7Lu Shi-jian, Chen Tao, Tian Shang-xuan, et al. Scene text ex- traction based on edges and support vector regression[J]. Inter- national Journal on Document Analysis and Recognition, 2015, 18(2) : 125-135.
8Bellot P,Bonnefoy L,Bouvier V,et al. Large Scale Text Mining Approaches for Information Retrieval and Extraction[M]//In- novations in Intelligent Machines. 2014:3-45.
9朱烨行,李艳玲,崔梦天,杨献文.一种改进K-means算法的聚类算法CARDBK[J].计算机科学,2015,42(3):201-205. 被引量：12
10Brecheisen S, Krieegel H P, Kroger P, et al. Visually mining through cluster hierarchies [C] ff International Conference on Data Mining. Lake Buena Vista, FL, 2004 : 400-412.

二级参考文献52

1高洁,吉根林.文本分类技术研究[J].计算机应用研究,2004,21(7):28-30. 被引量：36
2刘泉凤,陆蓓,王小华.文本挖掘中聚类算法的比较研究[J].计算机时代,2005(6):7-8. 被引量：8
3张惟皎,刘春煌,李芳玉.聚类质量的评价方法[J].计算机工程,2005,31(20):10-12. 被引量：60
4Sebastiani F. Text Categorization[Z]. Encyclopedia of Database Technologies and Applications. 2005..683-687.
5Joachims T. A Probabilistic Analysis of the Rocchio Algorithm with TF1DF for Text Categorization[C]//Proceedings of the Fourteenth International Conference on Machine Learning. Morgan Kaufmann Publishers Inc. San Francisco, CA, USA, 1997.
6Yang Y. An Evaluation of Statistical Approaches to Text Categorization[J]. Journal of Information Retrieval, 1999, 1 (1/2) :67-88.
7Rocchio J J Jr. Relevance Feedback in Information Retrieval [M]. Salton G, ed. The SMART Retrieval System: Experiments in Automatic Document Processing. Prentice-Hall, Inc. , Englewood Cliffs, New Jersey, 1971 : 313-323.
8Tzeras K, Hartmann S. Automatic Indexing Based on Bayesian Inference Networks[C]//Proc. 16th ACM Int. SIGIR Conference. 1993: 22-34.
9Masand B, Lino G, Waltz D. Classifying News Stories Using Memory Based Reasoning[C]//15th ACM SIGIR Conference. 1992:59-65.
10Apte C, Damerau F, Weiss S. Automated Learning of Decision Rules for Text Categorization[J]. ACM Trans. on Information Systems, 1994,12(3) : 233-251.

共引文献130

1陈丽娜,司海平,曹永生.多维农业数据交互式协同可视化系统设计与应用[J].商丘师范学院学报,2023,39(3):12-15. 被引量：2
2李艳平,徐雅斌,陈俊伊.搜索服务中基于云计算的垃圾网页识别研究[J].华中科技大学学报（自然科学版）,2012,40(S1):249-253.
3高飞,鱼江,任芳,黄保瑞,次旺多吉.四维文档向量模型的k-means新闻文本聚类算法[J].西藏大学学报（社会科学版）,2013,28(4):109-112.
4胡光中,欧阳鸿志.基于PIL的验证码快速识别框架的研究[J].计算机与现代化,2012(5):64-66. 被引量：2
5郑丹,王潜平.K-means初始聚类中心的选择算法[J].计算机应用,2012,32(8):2186-2188. 被引量：35
6张广弟,汪秀兵,胡亚磊.基于hadoop的DEM格网建立研究[J].科技视界,2012(28):95-95. 被引量：1
7王博,陈莉君.Hadoop远程过程调用机制的分析和应用[J].西安邮电学院学报,2012,17(6):74-77. 被引量：10
8赵伟燕,王静宇.基于MapReduce编程模型的TFIDF算法研究[J].微型机与应用,2013,32(4):71-73.
9赵青松,陈林,孙波,朱艳,姜海燕.基于Hadoop的云环境下作物生长模型算法的实现与测试[J].农业工程学报,2013,29(8):179-186. 被引量：11
10董陶,杨慧中.基于特征加权K-means聚类的多模型软测量建模[J].计算机与应用化学,2013,30(4):361-364. 被引量：3

同被引文献42

1韩蕾,孙徐湛,吴志川,陈立军.MapReduce上基于抽样的数据划分最优化研究[J].计算机研究与发展,2013,50(S2):77-84. 被引量：13
2马江洪,葛咏.图像线状模式的有限混合模型及其EM算法[J].计算机学报,2007,30(2):288-296. 被引量：12
3李斌,钟润添,王先基,庄镇泉.一种基于递增估计GMM的连续优化算法[J].计算机学报,2007,30(6):979-985. 被引量：9
4郭光霞.糖尿病患者健康信息需求调查分析及护理对策[J].基层医学论坛,2008,12(21):628-629. 被引量：6
5龙树全,赵正文,唐华.中文分词算法概述[J].电脑知识与技术,2009,5(4):2605-2607. 被引量：39
6武燕燕,姜亚芳.住院化疗癌症患者信息需求的调查研究[J].中华现代护理杂志,2010,16(4):384-387. 被引量：6
7张馨遥,曹锦丹.网络环境下用户健康信息需求的影响因素分析[J].医学与社会,2010,23(9):25-27. 被引量：44
8江小平,李成华,向文,张新访.云计算环境下朴素贝叶斯文本分类算法的实现[J].计算机应用,2011,31(9):2551-2554. 被引量：21
9李建江,崔健,王聃,严林,黄义双.MapReduce并行编程模型研究综述[J].电子学报,2011,39(11):2635-2642. 被引量：187
10樊东辉,王治和,陈建华,许虎寅.基于DF算法改进的文本聚类特征选择算法[J].甘肃联合大学学报（自然科学版）,2012,26(1):51-54. 被引量：6

引证文献6

1周勇.基于信息损失度的文本聚类研究[J].内蒙古师范大学学报（自然科学汉文版）,2017,46(5):759-762.
2陶永才,赵国桦,石磊,卫琳.一种改进的MapReduce互信息文本特征选择机制[J].小型微型计算机系统,2018,39(3):433-438. 被引量：7
3曹家庆,吴观茂.基于MapReduce的分布式贪心EM算法[J].信息技术与网络安全,2018,37(5):84-87. 被引量：1
4阴爱英,吴运兵,朱敏琛,张莹.基于MapReduce框架下K-means的改进算法[J].计算机应用研究,2018,35(8):2295-2298. 被引量：11
5周功建.基于Hadoop平台Canopy-Kmeans聚类算法优化改进研究[J].安徽广播电视大学学报,2018(4):117-122. 被引量：2
6陆泉,朱安琪,张霁月,陈静.中文网络健康社区中的用户信息需求挖掘研究——以求医网肿瘤板块数据为例[J].数据分析与知识发现,2019,3(4):22-32. 被引量：22

二级引证文献42

1禤世丽,刘建明.基于Hadoop平台的K-means聚类算法并行化改进研究[J].玉林师范学院学报,2020(3):90-96.
2王义,戴月明.基于混合互信息算法的文本情感分析[J].计算机应用研究,2020,37(2):337-341.
3邱宁佳,贺金彪,赵建平,李岩芳.基于PSO的支持向量机改进算法研究[J].长春理工大学学报（自然科学版）,2019,42(3):120-127. 被引量：2
4王健豪,苏勇.基于K-means算法的案件预测应用[J].计算机与数字工程,2019,47(8):1999-2001. 被引量：3
5杨梦晴,朱庆华.在线健康社区用户个人健康信息管理行为特征研究[J].图书情报工作,2020,64(1):105-112. 被引量：14
6罗伟峰,刘昕林,刘睿臻.海量数据流环境下自动化巡检平台开发与实现[J].自动化与仪器仪表,2020,0(3):137-140. 被引量：2
7王瑞,龙华,邵玉斌,杜庆治.基于Labeled-LDA模型的文本特征提取方法[J].电子测量技术,2020,43(1):141-146. 被引量：13
8白杨柳,张天骐,冯嘉欣,张晓艳.改进K-means算法对AltBOC信号组合码序列的盲估计[J].信号处理,2020,36(5):695-702. 被引量：1
9王熙,佟星,郑博雯,朱渝珊,谭天一,曾钰琪,李惠.在线健康社区中用户社会支持交换行为的跨文化比较研究[J].管理科学,2020,33(1):16-29. 被引量：10
10黄晓斌,张明鑫.在线健康社区青少年群体用户健康信息需求研究[J].中华医学图书情报杂志,2020,29(5):37-47. 被引量：8

1谈杰,李星.IP网络带宽的端到端测量技术[J].计算机应用与软件,2007,24(6):132-134. 被引量：1
2龚卫华,兰雪锋,裴小兵,杨良怀.基于k-度匿名的社会网络隐私保护方法[J].电子学报,2016,44(6):1437-1444. 被引量：11
3何海江.一种适应短文本的相关测度及其应用[J].计算机工程,2009,35(6):88-90. 被引量：7
4李鑫,王元庆.双焦立体图像对像素级匹配[J].计算机应用研究,2007,24(9):303-304. 被引量：1
5王晓峰,王天然.相关测度与增量式支持度和信任度的计算[J].软件学报,2002,13(11):2208-2214. 被引量：8
6张峰,雷振明.端到端网络带宽测量技术研究[J].电信科学,2005,21(4):74-78. 被引量：9
7刘泽良,杨保海.用VisualC++实现数字图像处理研究[J].洛阳工业高等专科学校学报,2006,16(1):33-34.
8靳铁良.利用Visual C++实现数字图像处理研究[J].河南教育学院学报（自然科学版）,2007,16(1):42-44.
9李钊,孙占全,李晓,李诚.基于信息损失量的特征选择方法研究及应用[J].山东大学学报（理学版）,2016,51(11):7-12. 被引量：2
10公茂果,焦李成,马文萍,张向荣.基于流形距离的人工免疫无监督分类与识别算法[J].自动化学报,2008,34(3):367-375. 被引量：30

计算机科学

2016年第1期

浏览历史

内容加载中请稍等...

一种基于MapReduce的文本聚类方法研究被引量：6

参考文献15

二级参考文献52

共引文献130

同被引文献42

引证文献6

二级引证文献42

相关作者

相关机构

相关主题

浏览历史

一种基于MapReduce的文本聚类方法研究 被引量：6

参考文献15

二级参考文献52

共引文献130

同被引文献42

引证文献6

二级引证文献42

相关作者

相关机构

相关主题

浏览历史

一种基于MapReduce的文本聚类方法研究被引量：6