最近邻优化的k-means聚类算法被引量：30

Nearest Neighbor Optimization k-means Clustering Algorithm

下载PDF

导出

摘要传统的k-means算法不论其数据样本的分布情况,将簇边缘位置、簇中心位置、离群点的数据样本全部按照最小距离原则,划分到离它最近的聚类中心所在簇中,没有考虑数据样本与其他簇之间的关系。如果数据样本与另一簇中心的距离接近于最小距离,则此数据样本与两个簇的关系都很大,显然这样直接划分并不合理。针对此问题,文中提出了最近邻优化的k-means聚类算法。运用近邻的思想,将这些不“很属于”某簇的数据样本划分到其最近邻数据样本所在的簇中,实验结果表明,这种最近邻优化的k-means聚类算法有效地减少了算法的迭代次数,提高了算法的聚类准确度,得到了良好的聚类效果。 Traditional k-means algorithms usually ignores the distribution of the data samples,assign all of them in the cluster edge position,center position,outliers to the cluster which nearest clustering center locates,in accordance with the principle of minimum distance,without considering the relationsh1ip between the data sample and other clusters.If the distance between the data sample and the other cluster is close to the minimum distance,the data sample is very close to the two clusters,obviously,the direct division menthod is not reasonable.Aiming at this problem,this paper presented a clustering algorithm optimized nearest neighbor(1NN-kmeans).Using the ideas of neighbor,assign these samples that do not firmly belong to a certain cluster to the cluster that the nearest neighbor sample belongs to.The experimental results show that 1NN effectively reduced the number of iterations and improved the clustering accuracy and finally achieved the better clustering results.

作者林涛赵璨 LIN Tao;ZHAO Can(School of Computer Science and Engineering,Hebei University of Technology,Tianjin 300401,China)

机构地区河北工业大学计算机科学与软件学院

出处《计算机科学》 CSCD 北大核心 2019年第S11期216-219,共4页 Computer Science

基金天津市自然科学基金重点项目(13jczdjc34400) 河北省科技计划项目(17214304D) 天津市科技重大专项(14ZCDZGX00818)资助

关键词 K-MEANS 分布关系簇最近邻 K-means Distribution Relationship Cluster Nearest neighbor

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献13

1华辉有,陈启买,刘海,张阳,袁沛权.一种融合Kmeans和KNN的网络入侵检测算法[J].计算机科学,2016,43(3):158-162. 被引量：40
2谢娟英,王艳娥.最小方差优化初始聚类中心的K-means算法[J].计算机工程,2014,40(8):205-211. 被引量：86
3马闯,吴涛,段梦雅.基于K近邻隶属度的聚类算法研究[J].计算机工程与应用,2016,52(10):55-58. 被引量：10
4郁启麟.K-means算法初始聚类中心选择的优化[J].计算机系统应用,2017,26(5):170-174. 被引量：25
5王超学,潘正茂,马春森,董丽丽,张涛.改进型加权KNN算法的不平衡数据集分类[J].计算机工程,2012,38(20):160-163. 被引量：26
6邢长征,谷浩.基于平均密度优化初始聚类中心的k-means算法[J].计算机工程与应用,2014,50(20):135-138. 被引量：32
7朴尚哲,超木日力格,于剑.模糊C均值算法的聚类有效性评价[J].模式识别与人工智能,2015,28(5):452-461. 被引量：45
8王勇,唐靖,饶勤菲,袁巢燕.高效率的K-means最佳聚类数确定算法[J].计算机应用,2014,34(5):1331-1335. 被引量：65
9赵建民,管国权,王红艳.基于遗传算法的硬聚类算法改进[J].计算机工程与科学,2008,30(8):83-85. 被引量：3
10苏毅娟,邓振云,程德波,宗鸣.大数据下的快速KNN分类算法[J].计算机应用研究,2016,33(4):1003-1006. 被引量：29

二级参考文献134

1杨兆升.关于智能运输系统的关键理论——综合路段行程时间预测的研究[J].交通运输工程学报,2001,1(1):65-67. 被引量：54
2张惟皎,刘春煌,李芳玉.聚类质量的评价方法[J].计算机工程,2005,31(20):10-12. 被引量：60
3陈宗海,文锋,聂建斌,吴晓曙.基于节点生长k-均值聚类算法的强化学习方法[J].计算机研究与发展,2006,43(4):661-666. 被引量：13
4姚丽亚,关宏志,魏连雨,孙立山.基于实时交通信息的行程时间估算及路径选择分析[J].公路交通科技,2006,23(11):86-89. 被引量：7
5翁剑成,荣建,任福田,魏中华.基于非参数回归的快速路行程速度短期预测算法[J].公路交通科技,2007,24(3):93-97. 被引量：17
6钱线,黄萱菁,吴立德.初始化K-means的谱方法[J].自动化学报,2007,33(4):342-346. 被引量：32
7张和生,张毅,温慧敏,胡东成.利用GPS数据估计路段的平均行程时间[J].吉林大学学报（工学版）,2007,37(3):533-537. 被引量：29
8赵奇,王汝传,孙力娟.无线传感器网络定向扩散协议研究及改进[J].计算机工程与设计,2007,28(12):2825-2828. 被引量：6
9袁方,周志勇,宋鑫.初始聚类中心优化的k-means算法[J].计算机工程,2007,33(3):65-66. 被引量：153
10李洋,方滨兴,郭莉,田志宏.基于主动学习和TCM-KNN方法的有指导入侵检测技术[J].计算机学报,2007,30(8):1464-1473. 被引量：31

共引文献364

1卜浏.无线传感网络在企业信息管理中的应用研究[J].财富时代,2019(9):163-163.
2张新娟.一种基于改进粒子群算法的图像分类方法研究[J].自动化与仪器仪表,2016(7):163-164. 被引量：1
3李鹏飞.一种改进的模糊C均值算法在入侵检测中的应用[J].计算机应用与软件,2012,29(2):289-290. 被引量：5
4陈智敏,蒙祖强,林啟锋.基于改进KNN的话题跟踪算法[J].小型微型计算机系统,2014,35(8):1722-1725. 被引量：2
5何田中,周忠眉,黄再祥.基于选择度的分类规则学习算法[J].计算机工程,2014,40(8):179-182.
6尹丽英,赵捧未.基于语义网络社团划分的中文文本分类研究[J].图书情报工作,2014,58(19):124-128. 被引量：7
7何田中,黄再祥.基于多置信度的不平衡数据分类算法[J].闽南师范大学学报（自然科学版）,2014,27(4):26-30.
8张杰,卓灵,朱韵攸.一种K-means聚类算法的改进与应用[J].电子技术应用,2015,41(1):125-128. 被引量：20
9郭伟光.基于改进K-medoids算法的社会化标签聚类研究[J].赤峰学院学报（自然科学版）,2014,30(24):17-19.
10张自豪,马方立,裴峥.K-均值聚类与SVM结合的地空通信干扰识别方法[J].济南大学学报（自然科学版）,2015,29(6):420-424. 被引量：3

同被引文献339

1Xiaodong LIU,Ben M.CHEN.An Approach to Synthesize Diverse Underwater Image Dataset[J].Instrumentation,2019,6(3):67-75. 被引量：4
2高翀.基于DBSCAN的节点仪器桩号自匹配方法设计与验证[J].石油物探,2023,62(S01):45-51. 被引量：1
3杜佳颖,段隆振,段文影,卜秋瑾.基于Spark的改进K-means算法的并行实现[J].计算机应用研究,2020,37(2):434-436. 被引量：13
4白燕飞,翟冬雪,吴德林,林熹.基于区块链的供应链金融平台优化策略研究[J].金融经济学研究,2020(4):119-132. 被引量：64
5姚晓通,刘力,李致远.基于Canny边缘特征点的接触网绝缘子识别方法[J].电瓷避雷器,2020(1):142-148. 被引量：21
6薛树强,杨文龙,李保金.反距离加权插值函数性质及最优插值条件[J].测绘科学,2022,47(10):1-7. 被引量：6
7毛开银,赵长名,何嘉.基于XGBoost的10 m风速订正研究[J].成都信息工程大学学报,2020(6):604-609. 被引量：8
8颜宏文,陈金鑫.基于改进YOLOv3的绝缘子串定位与状态识别方法[J].高电压技术,2020,46(2):423-432. 被引量：78
9周丽娟,王慧,王文伯,张宁.面向海量数据的并行KMeans算法[J].华中科技大学学报（自然科学版）,2012,40(S1):150-152. 被引量：32
10张仁健,王明星,李晶,杨昕,王秀玲.中国甲烷排放现状[J].气候与环境研究,1999,0(2):67-75. 被引量：59

引证文献30

1廖国庆,吴文海,曾鑫鹏.YOLOv4与ORB深度融合的绝缘子识别定位研究[J].电子测量与仪器学报,2022,36(2):131-138. 被引量：6
2於贤德.中国古代生态文化的思想源流[J].嘉兴高等专科学校学报,2000,13(1):9-14. 被引量：3
3余寒,刘汉湖,曾敏,陈军.Regional Merge K-means图像分割算法及其质量评价[J].河南科学,2020,38(3):370-375. 被引量：2
4宋明杰,阎少宏.一种改进的K-means聚类算法[J].新一代信息技术,2020,3(3):8-17.
5万珊,苟文博.基于改进K-means聚类的数据自动采集系统设计[J].自动化与仪器仪表,2020(10):108-112. 被引量：4
6姚立霜,刘丹,裴作飞,王云锋.基于EMD聚类的实时网络流量预测模型[J].计算机科学,2020,47(S02):316-320. 被引量：11
7许玲.基于密度的K-means聚类算法改进研究[J].滁州学院学报,2020,22(5):48-51.
8杜翠丽,李晓璐,孙然然,张彭,朱广宇.面向拥堵传播阻断的城轨站点分类[J].北京交通大学学报,2021,45(1):39-46. 被引量：2
9林丽,薛芳.基于逻辑回归函数的加权K-means聚类算法[J].集美大学学报（自然科学版）,2021,26(2):139-145. 被引量：8
10李中衡,杨奔,张劲节,刘银川,张雪涛,王飞.基于相关熵的快速聚类算法[J].西安交通大学学报,2021,55(6):121-130. 被引量：2

二级引证文献93

1冯建英,石岩,王博,穆维松.基于聚类分析的数据挖掘技术及其农业应用研究进展[J].农业机械学报,2022,53(S01):201-212. 被引量：13
2项翀.基于人工智能的5G承载网网络切片流量预测[J].中国宽带,2023,19(8):73-75.
3李荣铎,王国志,陶祝同.改进RetinaNet的绝缘子精确定位研究[J].电子测量与仪器学报,2022,36(12):237-243. 被引量：5
4刘昶,姜楠.基于双目视觉的棒材端面中心点定位[J].电子测量技术,2023,46(14):174-181. 被引量：2
5张涛,谢探阳,李玉梅,白俊华.基于改进YOLOv4算法的玻璃杯缺陷识别方法研究[J].电子测量技术,2023,46(2):46-51. 被引量：5
6尚晖.道家生态思想的现代价值研究[J].时代文学,2008(16):96-96.
7李金玉.周代生态环保思想的历史文化渊源[J].河南师范大学学报（哲学社会科学版）,2011,38(3):139-141. 被引量：3
8李金玉.环境史研究的现实意义和学术价值[J].新乡学院学报,2018,35(5):57-60.
9朱志斌,马游春.远程低功耗钢桥测温系统设计[J].电子测量技术,2020,43(23):154-158. 被引量：4
10赵志海.基于大数据技术精细化社会治理系统研究[J].粘接,2021(6):72-76.

1张守平.“一题多解”在培养学生数学思维中的应用[J].内江科技,2019,0(9):61-61. 被引量：2
2屈毅,陈翔.多孩农民工家庭子女随迁公平性的测度[J].统计与决策,2019,0(21):97-100. 被引量：2
3张华.基于机器学习的光纤故障大数据分类算法研究[J].安阳工学院学报,2019,18(6):52-55. 被引量：5
4张丹华.关于血涂片分析在血常规检验中的重要性探究[J].医学信息（医学与计算机应用）,2016,29(28):242-242. 被引量：1
5李万林.金融科技助力长三角一体化发展[J].理财周刊,2019,0(26):58-59.
6崔芮华,李英男,王传宇,李锋锋.基于小波能量矩的航空交流串联电弧故障识别算法研究[J].电工电能新技术,2019,38(11):1-9. 被引量：4
7莉莉吴.囚笼[J].课堂内外（创新作文）（初中版）,2019,0(11):58-61.
8邱军辉.微创经皮锁定加压钢板内固定对四肢骨折患者的作用分析[J].首都食品与医药,2019,26(20):25-26. 被引量：6
9胡小琴.基于梯度提升回归树的大数据集离群点挖掘模型构建[J].佳木斯大学学报（自然科学版）,2019,37(5):743-747.
10张士翔,李汪根,李童,朱楠楠.一种改进的贝叶斯逻辑回归核心集构建算法[J].计算机科学,2019,46(S11):98-102. 被引量：2

计算机科学

2019年第S11期

浏览历史

内容加载中请稍等...

最近邻优化的k-means聚类算法被引量：30

参考文献13

二级参考文献134

共引文献364

同被引文献339

引证文献30

二级引证文献93

相关作者

相关机构

相关主题

浏览历史

最近邻优化的k-means聚类算法 被引量：30

参考文献13

二级参考文献134

共引文献364

同被引文献339

引证文献30

二级引证文献93

相关作者

相关机构

相关主题

浏览历史

最近邻优化的k-means聚类算法被引量：30