Web 2.0信息时代,信息量迅速增加,信息检索速率却显著降低,如何提高信息的自动分类管理水平,从海量数据中高效、准确、快速获取有价值的信息与知识成为智慧图书馆亟待研究与解决的问题。文章提出了在数字图书馆服务中运用新型文本聚类...Web 2.0信息时代,信息量迅速增加,信息检索速率却显著降低,如何提高信息的自动分类管理水平,从海量数据中高效、准确、快速获取有价值的信息与知识成为智慧图书馆亟待研究与解决的问题。文章提出了在数字图书馆服务中运用新型文本聚类群智能分析方法。该算法通过改进文本间的语义相似度计算,融合K-means聚类算法与蚁群聚类算法(Ant Colony Optimization,ACO)的优点,在初始分类时将K-means聚类算法用作快速分类,用分类结果指导更新蚂蚁各途径信息素,指导蚂蚁后续聚类途径选择,提高聚类运行效率。该分析方法因为不需要类别的信息,能自动完成文本分组,所以可以更好地应用到图书馆资源的推荐与检索服务中。图书馆数字文本数据库实验证明,混合蚁群聚类算法比单独的K-means、ACO都具有更好的聚类效果,可以看出该算法的有效性。展开更多
为解决一些决策树受到数据噪声等因素的影响,导致它们对随机森林聚类产生有限甚至负面贡献这一问题,提出一种基于聚类集成选择的随机森林聚类方法(random forest clustering method based on cluster ensemble selection,RFCCES)。将每...为解决一些决策树受到数据噪声等因素的影响,导致它们对随机森林聚类产生有限甚至负面贡献这一问题,提出一种基于聚类集成选择的随机森林聚类方法(random forest clustering method based on cluster ensemble selection,RFCCES)。将每一棵决策树视为一个基聚类器,根据基聚类器集合的稳定和不稳定性设计两种不同的聚类集成选择方法,将评估单个决策树对随机森林的增益问题,转化为基聚类器对最终的聚类集成结果的增益问题。该算法与5种对比方法在10个数据集上进行比较,实验结果验证了RFCCES的独特优势和整体有效性。展开更多
分析高中生英语词汇记忆存在的问题,即词汇量积累缓慢,遗忘率高;记忆方法单一,缺乏趣味性;应用实践少,脱离语境学习。聚焦词汇聚类理念,以北师大版高中《英语》必修一Unit 2 Sports And Fitness Lesson 3 Running And Fitness一课的词...分析高中生英语词汇记忆存在的问题,即词汇量积累缓慢,遗忘率高;记忆方法单一,缺乏趣味性;应用实践少,脱离语境学习。聚焦词汇聚类理念,以北师大版高中《英语》必修一Unit 2 Sports And Fitness Lesson 3 Running And Fitness一课的词汇记忆为例,重点探讨词汇聚类的应用优势和路径。通过深入分析语义聚类、主题聚类及重要性聚类的特别应用,旨在揭示词汇聚类在提高记忆效率、攻克学习难点方面的积极作用,为高中英语词汇教学提供新视角和实操指导,力求在日常教学实践中取得实质性成效。展开更多
现有多视角聚类算法存在:1)在学习低维表征的过程中无法准确捕获或忽略嵌入在多视角数据中的高阶信息和互补信息;2)未能准确捕获数据局部信息;3)信息捕获方法缺少对噪声点鲁棒性等问题.为解决上述问题,提出一种自适应张量奇异值收缩的...现有多视角聚类算法存在:1)在学习低维表征的过程中无法准确捕获或忽略嵌入在多视角数据中的高阶信息和互补信息;2)未能准确捕获数据局部信息;3)信息捕获方法缺少对噪声点鲁棒性等问题.为解决上述问题,提出一种自适应张量奇异值收缩的多视角聚类(multi-view clustering based on adaptive tensor singular value shrinkage,ATSVS)算法.ATSVS首先提出一种符合秩特性的张量对数行列式函数对表示张量施加低秩约束,在张量奇异值分解(tensor singular value decomposition,t-SVD)过程中能够根据奇异值自身大小进行自适应收缩,更加准确地进行张量秩估计,进而从全局角度精准捕获多视角数据的高阶信息和互补信息.然后采用一种结合稀疏表示和流形正则技术优势的l_(1,2)范数捕获数据的局部信息,并结合l_(2,1)范数对噪声施加稀疏约束,提升算法对噪声点的鲁棒性.与11个对比算法在9个数据集上的实验结果显示,ATSVS的聚类性能均优于其他对比算法.因此,ATSVS是一个能够有效处理多视角数据聚类任务的优秀算法.展开更多
文摘为解决一些决策树受到数据噪声等因素的影响,导致它们对随机森林聚类产生有限甚至负面贡献这一问题,提出一种基于聚类集成选择的随机森林聚类方法(random forest clustering method based on cluster ensemble selection,RFCCES)。将每一棵决策树视为一个基聚类器,根据基聚类器集合的稳定和不稳定性设计两种不同的聚类集成选择方法,将评估单个决策树对随机森林的增益问题,转化为基聚类器对最终的聚类集成结果的增益问题。该算法与5种对比方法在10个数据集上进行比较,实验结果验证了RFCCES的独特优势和整体有效性。
文摘分析高中生英语词汇记忆存在的问题,即词汇量积累缓慢,遗忘率高;记忆方法单一,缺乏趣味性;应用实践少,脱离语境学习。聚焦词汇聚类理念,以北师大版高中《英语》必修一Unit 2 Sports And Fitness Lesson 3 Running And Fitness一课的词汇记忆为例,重点探讨词汇聚类的应用优势和路径。通过深入分析语义聚类、主题聚类及重要性聚类的特别应用,旨在揭示词汇聚类在提高记忆效率、攻克学习难点方面的积极作用,为高中英语词汇教学提供新视角和实操指导,力求在日常教学实践中取得实质性成效。
文摘现有多视角聚类算法存在:1)在学习低维表征的过程中无法准确捕获或忽略嵌入在多视角数据中的高阶信息和互补信息;2)未能准确捕获数据局部信息;3)信息捕获方法缺少对噪声点鲁棒性等问题.为解决上述问题,提出一种自适应张量奇异值收缩的多视角聚类(multi-view clustering based on adaptive tensor singular value shrinkage,ATSVS)算法.ATSVS首先提出一种符合秩特性的张量对数行列式函数对表示张量施加低秩约束,在张量奇异值分解(tensor singular value decomposition,t-SVD)过程中能够根据奇异值自身大小进行自适应收缩,更加准确地进行张量秩估计,进而从全局角度精准捕获多视角数据的高阶信息和互补信息.然后采用一种结合稀疏表示和流形正则技术优势的l_(1,2)范数捕获数据的局部信息,并结合l_(2,1)范数对噪声施加稀疏约束,提升算法对噪声点的鲁棒性.与11个对比算法在9个数据集上的实验结果显示,ATSVS的聚类性能均优于其他对比算法.因此,ATSVS是一个能够有效处理多视角数据聚类任务的优秀算法.