针对大数据环境下并行K-means算法存在的面对高维数据聚类效果差、数据分区不均匀、初始质心敏感等问题,提出了一种基于MapReduce和MSSA的并行K-means算法MR-MSKCA。首先,提出基于肯德尔相关系数和深度稀疏自动编码器的降维策略(dimensi...针对大数据环境下并行K-means算法存在的面对高维数据聚类效果差、数据分区不均匀、初始质心敏感等问题,提出了一种基于MapReduce和MSSA的并行K-means算法MR-MSKCA。首先,提出基于肯德尔相关系数和深度稀疏自动编码器的降维策略(dimensionality reduction strategy based on Kendall correlation coefficient and DSAE,DRKCAE)对高维数据进行特征加权和特征提取,解决了高维数据不相关特征和结构稀疏导致的聚类效果差的问题;其次,提出基于两段映射的广义超平面分区策略(uniform partition strategy based on two-stage mapping,UPS)对数据集进行划分,获取均匀的数据分区;最后提出非均匀变异麻雀搜索算法(non-uniform mutation sparrow search algorithm,MSSA)用于获取并行K-means的聚类质心,解决了算法初始质心敏感的问题。在UCI数据集上进行的实验显示,MR-MSKCA较MR-KNMF、MR-PGDLSH、MR-GAPKCA的运行时间分别降低了45.1%、49.1%、59.8%,聚类效果分别提升了19.2%、22.8%、24%,表明MR-MSKCA对大数据进行聚类时有良好性能,适用于不同场景的大数据聚类分析。展开更多
在稀土磁性材料压型生产过程中,一般通过导出压型机可编程逻辑控制器(Programmable Logic Controller,PLC)历史数据,分析质量不合格产品产生的原因,其效率低、实时性差、准确度低,缺乏对质量不合格产品记录、跟踪及统计的数字化手段,无...在稀土磁性材料压型生产过程中,一般通过导出压型机可编程逻辑控制器(Programmable Logic Controller,PLC)历史数据,分析质量不合格产品产生的原因,其效率低、实时性差、准确度低,缺乏对质量不合格产品记录、跟踪及统计的数字化手段,无法及时优化生产控制参数。通过开发稀土磁性材料压型生产数据网关,获取压型机PLC生产数据、环境数据及生产要素数据等,使用窄带物联网(Narrow Band Internet of Things,NB-IoT)技术上传到云端服务器,实现生产数据的实时采集、处理、分析、呈现以及报警等功能。结果表明,该系统可以在实际生产环境中稳定运行,采集及上传数据及时,丢包率低,系统可靠性较高,可有效提升稀土磁性材料压型生产效率和产品质量。展开更多
文摘针对大数据环境下并行K-means算法存在的面对高维数据聚类效果差、数据分区不均匀、初始质心敏感等问题,提出了一种基于MapReduce和MSSA的并行K-means算法MR-MSKCA。首先,提出基于肯德尔相关系数和深度稀疏自动编码器的降维策略(dimensionality reduction strategy based on Kendall correlation coefficient and DSAE,DRKCAE)对高维数据进行特征加权和特征提取,解决了高维数据不相关特征和结构稀疏导致的聚类效果差的问题;其次,提出基于两段映射的广义超平面分区策略(uniform partition strategy based on two-stage mapping,UPS)对数据集进行划分,获取均匀的数据分区;最后提出非均匀变异麻雀搜索算法(non-uniform mutation sparrow search algorithm,MSSA)用于获取并行K-means的聚类质心,解决了算法初始质心敏感的问题。在UCI数据集上进行的实验显示,MR-MSKCA较MR-KNMF、MR-PGDLSH、MR-GAPKCA的运行时间分别降低了45.1%、49.1%、59.8%,聚类效果分别提升了19.2%、22.8%、24%,表明MR-MSKCA对大数据进行聚类时有良好性能,适用于不同场景的大数据聚类分析。
文摘在稀土磁性材料压型生产过程中,一般通过导出压型机可编程逻辑控制器(Programmable Logic Controller,PLC)历史数据,分析质量不合格产品产生的原因,其效率低、实时性差、准确度低,缺乏对质量不合格产品记录、跟踪及统计的数字化手段,无法及时优化生产控制参数。通过开发稀土磁性材料压型生产数据网关,获取压型机PLC生产数据、环境数据及生产要素数据等,使用窄带物联网(Narrow Band Internet of Things,NB-IoT)技术上传到云端服务器,实现生产数据的实时采集、处理、分析、呈现以及报警等功能。结果表明,该系统可以在实际生产环境中稳定运行,采集及上传数据及时,丢包率低,系统可靠性较高,可有效提升稀土磁性材料压型生产效率和产品质量。