期刊文献+

HDCH:MapReduce平台上的音频数据聚类系统 被引量:3

Clustering Method for High Dimensional Data on MapReduce
下载PDF
导出
摘要 随着互联网上音乐数目的增长,如何对音乐进行分析、识别成为焦点问题.在音乐的识别过程中,需要对歌曲的帧数据进行聚类,数据的海量性与音乐数据本身的复杂性使得分析计算需要借助MapReduce平台多机并行完成.提出一种MapReduce平台上的音频数据聚类系统———HDCH,能够有效地对海量音频数据进行聚类.实验证明,HDCH具有很好的性能和可扩展性.除了音频数据外,HDCH还适用于所有海量高维数据的聚类分析. 随着互联网上音乐数目的增长,如何对音乐进行分析、识别成为焦点问题.在音乐的识别过程中,需要对歌曲的帧数据进行聚类,数据的海量性与音乐数据本身的复杂性使得分析计算需要借助MapReduce平台多机并行完成.提出一种MapReduce平台上的音频数据聚类系统———HDCH,能够有效地对海量音频数据进行聚类.实验证明,HDCH具有很好的性能和可扩展性.除了音频数据外,HDCH还适用于所有海量高维数据的聚类分析.
出处 《计算机研究与发展》 EI CSCD 北大核心 2011年第S3期472-475,共4页 Journal of Computer Research and Development
基金 科技重大专项基金项目(2010ZX01042-003-004) 国家自然科学基金重点基金项目(61033010) 国家"八六三"高技术研究发展计划基金项目(2009AA062803) 上海市科委现代服务业专项基金项目(10dz1511000)
关键词 高维数据 聚类 MAPREDUCE music frames high dimensional data clustering MapReduce
  • 相关文献

参考文献5

  • 1Bialecki A,Cafarella M,Cutting D,O’’Malley O.Hadoop:a framework for running applications on large clusters built of commodity hardware. http://lucene.apache.org/hadoop . 2005
  • 2黄斯达,陈启买.一种基于相似性度量的高维数据聚类算法的研究[J].计算机应用与软件,2009,26(9):102-105. 被引量:13
  • 3Apache Mahout:Scalable machine-learning and data-mining library. http://mahout.apache.org/ . 2011
  • 4George H John,Pat Langley.Estimating Continuous Distributions in Bayesian Classifiers. Eleventh Conference on Uncertainty in Artificial Intelligence . 1995
  • 5MacQueen J.Some methods for classification and analysis of multivariate observations. Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability . 1967

二级参考文献5

  • 1贺玲,吴玲达,蔡益朝.高维空间中数据的相似性度量[J].数学的实践与认识,2006,36(9):189-194. 被引量:20
  • 2Rakesh Agrawal,Johannes Gehrke, Dimitrios Gunopulos, et al . Automatic Subspace Clustering of High Dimensional Data for Data Mining Application [ C ]//Proceedings of the 1998 ACM-SIGMOD International Conference on Management of Data, Seattle, Washington, 1998.
  • 3Aggarwal C C, Procopiuc C, Wolf J L, et al. Fast algorithms for projected clustering [ C ]//Proc. of the ACM SIGMOD Conference Philadel- Phia,PA,1999:61 -72.
  • 4Agrawal R, Gehrke J. Gunopolos D, et al. Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications. In ACM SIGMOD Conference, 1998.
  • 5Sudipto Guha, Rajeev Rastogi, Kyuseok Shim CURE. An Efficient Clustering Algorithm for Large Databases [ C ]//Proceedings of the ACM SIGMOD international conference on Management of data. New York: ACM Press, 1998:73 - 84.

共引文献12

同被引文献23

  • 1Jain A K,Murty M N,Flynn P J.Data clustering:a review[J].ACM Computing Surveys,1999,31(3):264-323.
  • 2Frey B J,Dueck D.Clustering by passing messages between data points[J].Science,2007,315(5814):972-976.
  • 3Shang F H,Jiao L C,Shi J R,et al.Fast affinity propagation clustering:a multilevel approach[J].Pattern Recognition,2012,45(1):474-486.
  • 4Apache[EB/OL].Hadoop.http://hadoop.apache.org/.
  • 5Dean J,Ghemawat S.Map Reduce:simplified data processing on large clusters[C]//OSDI'04:6th Symposium on Operating Systems Design and Implementation.San Francisco,California,USA:USENIX Association,2004:137-149.
  • 6Catanzaro B,Sundaram N,Keutzer K.A map reduce framework for programming graphics processors[C]//Workshop on Software Tools for Multi Core Systems,2008.
  • 7Papadimitriou S,Jimeng S.Dis Co:Distributed co-clustering with Map-Reduce:A case study towards petabyte-scale end-to-end mining[C]//IEEE International Conference on8th Data Mining,2008:512-521.
  • 8Ferreira Cordeiro R L,Traina Junior C,Machado Traina A J,et al.Clustering very large multi-dimensional datasets with Map Reduce[C]//Proceedings of the 17th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,2011:690-698.
  • 9Qiu J,Ekanayake J,Gunarathne T,et al.Hybrid cloud and cluster computing paradigms for life science applications[J].BMC Bioinformatics,2010,1112(S3).
  • 10Bodenhofer U,Kothmeier A,Hochreiter S.APCluster:an R package for affinity propagation clustering[J].Bioinformatics,2011,27(17):2463-2464.

引证文献3

二级引证文献9

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部