2种加速K-近邻方法的实验比较被引量：3

Experimental comparison of two acceleration approaches for K-nearest neighbors

下载PDF

导出

摘要 K-近邻(K-NN:K-nearest neighbors)是著名的数据挖掘算法,应用非常广泛.K-NN思想简单,易于实现,其计算时间复杂度和空间复杂度都是O(n),n为训练集中包含的样例数.当训练集比较大时,特别是面对大数据集时,K-NN算法的效率会变得非常低,甚至不可行.本文用实验的方法比较了2种加速K-NN的方法,2种加速方法分别是压缩近邻(CNN:condensed nearest neighbor)方法和基于MapReduce的K-NN.具体地,在Hadoop环境下,用MapReduce编程实现了K-NN算法,并与CNN算法在8个数据集上进行了实验比较,得出了一些有价值的结论,对从事相关研究的人员具有一定的借鉴作用. K-NN（K-nearest neighbors）is a famous data mining algorithm with wide range of applications.The idea of K-NN is simple and it is easy to implement.Both computational time and space complexity of K-NN are all O（n）,where,nis the number of instances in a training set.When K-NN encountered larger training sets,especially faced with big data sets,the efficiency of K-NN becomes very low,even KNN is impracticable.Two acceleration approaches for K-nearest neighbors are experimentally compared on 8data sets.The two acceleration approaches are the CNN and MapReduce based K-NN.Specifically,in Hadoop environment,this paper implements K-NN with MapReduce,and experimentally compares with CNN on 8data sets.Some valuable conclusions are obtained,and may be useful for researchers in related fields.

作者翟俊海王婷婷张明阳王耀达刘明明

机构地区河北大学数学与信息科学学院

出处《河北大学学报（自然科学版）》 CAS 北大核心 2016年第6期650-656,共7页 Journal of Hebei University(Natural Science Edition)

基金国家自然科学基金资助项目(71371063) 河北省高等学校科学技术研究重点项目(ZD20131028) 河北大学研究生创新项目(X2016059)

关键词 K-近邻数据挖掘 MAPREDUCE HADOOP K-nearest neighbors data mining MapReduce Hadoop

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献3

1霍亮,杨柳,张俊芝.贝叶斯与k-近邻相结合的文本分类方法[J].河北大学学报（自然科学版）,2012,32(3):316-319. 被引量：1
2湛燕,陈昊,袁方,王丽娟.文本挖掘研究进展[J].河北大学学报（自然科学版）,2003,23(2):221-226. 被引量：15
3李武军,周志华.大数据哈希学习:现状与趋势[J].科学通报,2015,60(5):485-490. 被引量：46

二级参考文献86

1袁曾任.人工神经元网络及其应用[M].北京:清华大学出版社,2000..
2HANJIAWEI MICHELINEKAMBER.DataMiningconceptsandtechniques[M].北京：高等教育出版社,2001..
3DUDA R O, HART P E, STORK D G. Pattern lassification[M]. 2nd ed. New York: John Wiley and Sons,2001.
4ERIC BAUER, RON KOHAVI. Art empirical comparison of voting classification algorithms: Bagging, Boosting and variants[J]. Machine Learning, 1999, 36(1/2): 105-139.
5YANG YIMING. An evaluation of statistical approaches to text categorization[ J ]. Journal of Information Retrieval, 1999,1 (1/2) : 67- 88.
6ANTONIO GOMEZ SKARMETA, AMINE BENSAID. Data mining for text categorization with semi - supervised agglomerative hierarchical clustering[J]. International Journal of Intelligent Systems, 2000, 15(7) :633 - 646.
7JYH- SHING ROGER JANG, CHUEN - TSAI SUN,EIJI - MIZUTANI. Neuro- Fuzzy and soft computing[M]. New Jersey, USA: Prentice- Hall, 1997.
8JAVIER RAYMUNDO GARCIA- SERRANO, JOSE FRANCISCO MARTINEZ - TRNIDAD. Extension to c - means algorithm for the use of similarity function[A]. JAN M ZYTKOW, JAN RAUCH. Third European Corfference, PKDD'99[C].Prague: Czech Republic, 1999.
9AH- HWEE TAN. Text Mining: The state of the art and the challenges[ Z], PAKDD'99 Workshop on Knowledge discovery from Advanced Databases (KDAD'99), Beijing, 1999.
10JI HE, AH- HWEE TAN, CHEW - LIM TAN. A comparative study on Chinese text categorization methods[Z]. PRICAI 2000 workshop on text and web mining, Melbourne, 2000.

共引文献59

1贝雨馨,崔荣一.文本分类中特征项权重的计算方法[J].延边大学学报（自然科学版）,2004,30(3):202-204. 被引量：9
2马金娜,田大钢.基于SVM的中文文本自动分类研究[J].计算机与现代化,2006(8):5-8. 被引量：8
3陈思睿,张永,杨志勇.基于粗糙集的特征选择方法的研究[J].计算机工程与应用,2006,42(21):159-161. 被引量：7
4张永,陈思睿,杨志勇,贾桂霞.特征选择方法的研究和改进[J].兰州理工大学学报,2006,32(5):92-95. 被引量：3
5肖红,康岚兰.文本挖掘与信息融合技术在高校信息网络中的应用[J].科技广场,2006(11):26-29. 被引量：1
6马金娜,田大钢.基于支持向量机的中文文本自动分类研究[J].系统工程与电子技术,2007,29(3):475-478. 被引量：14
7谭金波.文本层次分类中特征项权重算法的比较研究[J].情报杂志,2007,26(9):87-88. 被引量：5
8李国慧.Web数据挖掘研究[J].电脑知识与技术,2008(2):592-594. 被引量：2
9陈建丽.基于XML的Web文本数据挖掘模型构建[J].电脑与电信,2008(9):63-64.
10张燕,寒枫,楚红涛.文本挖掘简述[J].中国电力教育,2006(S3):138-140.

同被引文献22

1陈颖.熵概念的历史演变[J].物理通报,2009,30(4):49-52. 被引量：9
2孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发展,2013,50(1):146-169. 被引量：2393
3闫永刚,马廷淮,王建.KNN分类算法的MapReduce并行化实现[J].南京航空航天大学学报,2013,45(4):550-555. 被引量：21
4杨柳,于剑,景丽萍.一种自适应的大间隔近邻分类算法[J].计算机研究与发展,2013,50(11):2269-2277. 被引量：15
5朱庆生,唐汇,冯骥.一种基于自然最近邻的离群检测算法[J].计算机科学,2014,41(3):276-278. 被引量：11
6何清,李宁,罗文娟,史忠植.大数据下的机器学习算法综述[J].模式识别与人工智能,2014,27(4):327-336. 被引量：328
7李武军,周志华.大数据哈希学习:现状与趋势[J].科学通报,2015,60(5):485-490. 被引量：46
8谢红,赵洪野.基于卡方距离度量的改进KNN算法[J].应用科技,2015,42(1):10-14. 被引量：17
9姜茸,廖鸿志,杨明.信息熵在软件领域中的应用研究现状[J].自动化技术与应用,2015,34(4):1-6. 被引量：6
10黄宜华.大数据机器学习系统研究进展[J].大数据,2015,1(1):28-47. 被引量：51

引证文献3

1张素芳,翟俊海,王聪,沈矗,赵春玲.大数据与大数据机器学习[J].河北大学学报（自然科学版）,2018,38(3):299-308. 被引量：22
2王婷婷,翟俊海,张明阳,郝璞.基于HBase和SimHash的大数据K-近邻算法[J].山东大学学报（工学版）,2018,48(3):54-59. 被引量：1
3赵琳,行致源.基于最重要特征的裁剪k-近邻分类算法设计[J].电子设计工程,2019,27(14):135-138. 被引量：6

二级引证文献29

1程乐峰,余涛,张孝顺,殷林飞.机器学习在能源与电力系统领域的应用和展望[J].电力系统自动化,2019,43(1):15-31. 被引量：120
2郑新刚.超越与重塑:智能广告的运作机制及行业影响[J].编辑之友,2019(5):74-80. 被引量：21
3孙凯.大数据背景下机器学习在数据挖掘中的应用浅析[J].科学技术创新,2018(18):82-83. 被引量：14
4王旸.大数据环境下机器学习在数据挖掘中的应用研究[J].智库时代,2018(31):260-261. 被引量：4
5李德世,孙云哲.基于大数据的现役雷达装备预测性维修保障平台研究[J].火控雷达技术,2018,47(4):104-106. 被引量：3
6何玉花,周梦林,徐建云,陈丹青.应用机器学习方法建立大于胎龄儿预测模型[J].现代妇产科进展,2019,28(1):48-50. 被引量：3
7邓清闯,费怀胜,李朝锋.风电场智能运维管控系统方案设计[J].机械与电子,2019,37(1):71-74. 被引量：6
8汪岿,刘柏嵩.文本分类研究综述[J].数据通信,2019,0(3):37-47. 被引量：21
9杨福建.大数据时代机器学习的新趋势[J].电子技术与软件工程,2019(19):155-156. 被引量：3
10吕尚彬,郑新刚.计算广告的兴起背景、运作机理和演进轨迹[J].山东社会科学,2019(11):164-169. 被引量：11

1霍亮,杨柳,张俊芝.贝叶斯与k-近邻相结合的文本分类方法[J].河北大学学报（自然科学版）,2012,32(3):316-319. 被引量：1
2叶施仁,游湘涛,史忠植,李晓黎.高维数据中有效的相似性计算方法[J].计算机研究与发展,2000,37(10):1166-1172. 被引量：4
3袁方,杨柳,张红霞.基于k-近邻方法的渐进式中文文本分类技术[J].华南理工大学学报（自然科学版）,2004,32(z1):88-91. 被引量：7
4袁国良,宋显水.基于WiFi和IMU结合的室内定位方法的研究[J].微型机与应用,2017,36(8):11-14. 被引量：2
5江志雄,丁岳伟.基于K-近邻方法的网络信息文本分类[J].上海理工大学学报,2005,27(1):83-86. 被引量：2
6刘开袆,江志雄.基于K-近邻方法的网络信息文本分类[J].贵州大学学报（自然科学版）,2009,26(3):60-63. 被引量：2
7倪维健,黄亚楼,李飞,刘赏.一种基于加权多代表点的层次聚类算法[J].计算机科学,2005,32(5):150-154. 被引量：5
8姚红.多步逆向云变换算法在图像分割中的应用[J].电脑知识与技术,2015,11(4X):202-205. 被引量：1
9陈光.优化K-近邻方法及其应用[J].福建电脑,2009,25(2):151-152. 被引量：1
10白宁.基于K-近邻技术的教学效果评测方法[J].现代计算机（中旬刊）,2015(6):45-47.

河北大学学报（自然科学版）

2016年第6期

浏览历史

内容加载中请稍等...

2种加速K-近邻方法的实验比较被引量：3

参考文献3

二级参考文献86

共引文献59

同被引文献22

引证文献3

二级引证文献29

相关作者

相关机构

相关主题

浏览历史

2种加速K-近邻方法的实验比较 被引量：3

参考文献3

二级参考文献86

共引文献59

同被引文献22

引证文献3

二级引证文献29

相关作者

相关机构

相关主题

浏览历史

2种加速K-近邻方法的实验比较被引量：3