一种基于互信息的文本聚类算法研究

下载PDF

导出

摘要随着互联网的应用和普及,集聚了海量的网络文档数据。为了提高网络数据的可利用性和用户搜索的准确度,本文提出了一种基于互信息的文本聚类算法,能够将网络文本数据自动分类,提高用户搜索的准确度和精确度。

作者周成福

机构地区同济大学

出处《电子技术与软件工程》 2015年第9期177-177,共1页 ELECTRONIC TECHNOLOGY & SOFTWARE ENGINEERING

关键词文本数据聚类互信息互联网

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1郑诚,李鸿.基于主题模型的K-均值文本聚类[J].计算机与现代化,2013(8):78-80. 被引量：4
2李霞,蒋盛益,张倩生,朱靖.适用于大规模文本处理的动态密度聚类算法[J].北京大学学报（自然科学版）,2013,49(1):133-139. 被引量：10

二级参考文献28

1黄永光,刘挺,车万翔,胡晓光.面向变异短文本的快速聚类算法[J].中文信息学报,2007,21(2):63-68. 被引量：17
2李峰,李芳.中文词语语义相似度计算——基于《知网》2000[J].中文信息学报,2007,21(3):99-105. 被引量：106
3王永恒,贾焰,杨树强.海量短语信息文本聚类技术研究[J].计算机工程,2007,33(14):38-40. 被引量：13
4Ester M, Kriegel H P, Sander J, et al. A density-based algorithm for discovering clusters in large spatial databases with noise // Proceedings of the 2nd International Conference on Knowledge Discovering in Databases and Data Mining (KDD-96). Massa- chusetts: AAAI Press, 1996:226-232.
5Guha S, Rastogi R, Shim K. CURE: an efficient clustering algorithm for large databases//Proceedings ACM SIGMOD International Conference on Management of Data (SIGMOD 1998). Washington, 1998:73-84.
6Karypis G, Han E, Kumar V. CHAMELEON: a hierarchical clustering algorithm using dynamic modeling. IEEE Computer, 1999, 32(8): 68-75.
7Ertoz L, Michael S, Kumar V. Finding clusters of different sizes, shapes, and densities in noisy, highdimensional data // Proceedings of the third SIAM International Conference on Data Mining (SIAM 2003). San Francisco, CA, 2003:47-58.
8Merz C J, Merphy P. UCI repository of machine learning databases [DB/OL]. (2000)[2012-05-30]. http://www.ics.uci.edu/-mlearn/MLRepository, html.
9Lewis D D. Reuters-21578 text categorization collection data set [DB/OL]. (1997)[2012-05-30]. http://archive.ics.uci.edu/ml/datasets/Reuters21578 + Text + Categorization + collection.
10搜狐研发中心.搜狗文本分类语料库[DB/OL].(2006)[2012-05-30].http://www.sogou.com/labs/dl/C.html.

共引文献12

1符保龙,张爱科.基于均值密度中心估计的k-means聚类文本挖掘方法[J].重庆邮电大学学报（自然科学版）,2014,26(1):111-116. 被引量：13
2崔君君,于林森,李鹏.协同视觉信息与标注信息图像聚类[J].哈尔滨理工大学学报,2014,19(2):57-62. 被引量：3
3蒋盛益,王连喜.聚类分析研究的挑战性问题[J].广东工业大学学报,2014,31(3):32-38. 被引量：6
4王李彧,孙斌,秦童.改进的DBSCAN聚类算法在云任务调度中的应用[J].北京邮电大学学报,2017,40(S1):68-71. 被引量：6
5姜芳,李国和,岳翔.基于语义的文档特征提取研究方法[J].计算机科学,2016,43(2):254-258. 被引量：10
6李国,张春杰,张志远.一种基于加权LDA模型的文本聚类方法[J].中国民航大学学报,2016,34(2):46-51. 被引量：10
7叶李.传感器网络时间序列数据的事件分类研究[J].重庆邮电大学学报（自然科学版）,2016,28(3):421-425. 被引量：1
8王海艳,曹攀.一种大规模Web文本的分类方法[J].南京邮电大学学报（自然科学版）,2016,36(4):60-67.
9戴娇,张明新,郑金龙,蒋礼青,尚赵伟.基于密度峰值的快速聚类算法优化[J].计算机工程与设计,2016,37(11):2979-2984. 被引量：8
10王飞,王国胤,李智星,彭思源.一种基于网格的密度峰值聚类算法[J].小型微型计算机系统,2017,38(5):1034-1038. 被引量：22

1康亚珊.AutoCAD线段绘制功能的使用[J].职大学报,2013(2):108-110.
2田晓艳.一种基于词嵌入与密度峰值策略的大数据文本聚类算法[J].科技创新与应用,2017,7(6):90-90.
3魏翔宇.浅谈自动化的发展及其应用[J].山东纺织经济,2014,31(9):22-23. 被引量：2
4陈永标,方兴其,岑宗浩.IEEE 1588-协议中时钟同步性能的影响因素以及时间戳的生成方式分析[J].微型电脑应用,2009(4):1-4. 被引量：13
5基于模糊聚类的网络文本数据检测方法[J].技术与市场,2011,18(7):568-568.
6陈春明,徐义峰.一种基于语义度量的知识本体映射方法[J].商场现代化,2008(15):393-394.
7王志慧,赵保军,冯永霖,沈庭芝.基于特征提取和脉冲耦合神经网络的图像融合算法[J].光学技术,2009,35(4):510-512.
8杨小梅,黎斌.网络复杂文本的分类优化过程仿真分析[J].计算机仿真,2016,33(4):399-402.
9李勇,桑艳艳.网络文本数据分类技术与实现算法[J].情报学报,2002,21(1):21-26. 被引量：29
10张亚军,王洪君.基于无线层析成像的室内监测定位算法研究[J].传感技术学报,2015,28(10):1558-1562. 被引量：2

电子技术与软件工程

2015年第9期

浏览历史

内容加载中请稍等...

一种基于互信息的文本聚类算法研究

参考文献2

二级参考文献28

共引文献12

相关作者

相关机构

相关主题

浏览历史