期刊文献+

一种基于互信息的文本聚类算法研究

下载PDF
导出
摘要 随着互联网的应用和普及,集聚了海量的网络文档数据。为了提高网络数据的可利用性和用户搜索的准确度,本文提出了一种基于互信息的文本聚类算法,能够将网络文本数据自动分类,提高用户搜索的准确度和精确度。
作者 周成福
机构地区 同济大学
出处 《电子技术与软件工程》 2015年第9期177-177,共1页 ELECTRONIC TECHNOLOGY & SOFTWARE ENGINEERING
  • 相关文献

参考文献2

二级参考文献28

  • 1黄永光,刘挺,车万翔,胡晓光.面向变异短文本的快速聚类算法[J].中文信息学报,2007,21(2):63-68. 被引量:17
  • 2李峰,李芳.中文词语语义相似度计算——基于《知网》2000[J].中文信息学报,2007,21(3):99-105. 被引量:106
  • 3王永恒,贾焰,杨树强.海量短语信息文本聚类技术研究[J].计算机工程,2007,33(14):38-40. 被引量:13
  • 4Ester M, Kriegel H P, Sander J, et al. A density-based algorithm for discovering clusters in large spatial databases with noise // Proceedings of the 2nd International Conference on Knowledge Discovering in Databases and Data Mining (KDD-96). Massa- chusetts: AAAI Press, 1996:226-232.
  • 5Guha S, Rastogi R, Shim K. CURE: an efficient clustering algorithm for large databases//Proceedings ACM SIGMOD International Conference on Management of Data (SIGMOD 1998). Washington, 1998:73-84.
  • 6Karypis G, Han E, Kumar V. CHAMELEON: a hierarchical clustering algorithm using dynamic modeling. IEEE Computer, 1999, 32(8): 68-75.
  • 7Ertoz L, Michael S, Kumar V. Finding clusters of different sizes, shapes, and densities in noisy, highdimensional data // Proceedings of the third SIAM International Conference on Data Mining (SIAM 2003). San Francisco, CA, 2003:47-58.
  • 8Merz C J, Merphy P. UCI repository of machine learning databases [DB/OL]. (2000)[2012-05-30]. http://www.ics.uci.edu/-mlearn/MLRepository, html.
  • 9Lewis D D. Reuters-21578 text categorization collection data set [DB/OL]. (1997)[2012-05-30]. http://archive.ics.uci.edu/ml/datasets/Reuters21578 + Text + Categorization + collection.
  • 10搜狐研发中心.搜狗文本分类语料库[DB/OL].(2006)[2012-05-30].http://www.sogou.com/labs/dl/C.html.

共引文献12

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部