传统KNN查询是一种稳定性和准确率性能均较好的算法,但是在样本规模过大时,算法的计算效率受到影响较大,对此提出一种基于聚类中心文本串联的并行(Mapreduce for KNN,MKNN)文本分类算法。首先,基于文本聚类方式,对相似度较高的文档进...传统KNN查询是一种稳定性和准确率性能均较好的算法,但是在样本规模过大时,算法的计算效率受到影响较大,对此提出一种基于聚类中心文本串联的并行(Mapreduce for KNN,MKNN)文本分类算法。首先,基于文本聚类方式,对相似度较高的文档进行串联合并,并以合并文档取代原有独立文档进行KNN查询过程,可有效实现文本相似度指标计算量降维;其次,针对上述文本串联及KNN查询过程,构建基于Mapreduce算法的并行化KNN执行过程,实现算法计算效率的快速提升;最后,通过与同类单线程算法在文本分类精度和算法计算效率实验上对比显示,在保证足够精度前提下,所提算法分类速度可得到有效提升。展开更多
文摘传统KNN查询是一种稳定性和准确率性能均较好的算法,但是在样本规模过大时,算法的计算效率受到影响较大,对此提出一种基于聚类中心文本串联的并行(Mapreduce for KNN,MKNN)文本分类算法。首先,基于文本聚类方式,对相似度较高的文档进行串联合并,并以合并文档取代原有独立文档进行KNN查询过程,可有效实现文本相似度指标计算量降维;其次,针对上述文本串联及KNN查询过程,构建基于Mapreduce算法的并行化KNN执行过程,实现算法计算效率的快速提升;最后,通过与同类单线程算法在文本分类精度和算法计算效率实验上对比显示,在保证足够精度前提下,所提算法分类速度可得到有效提升。