期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
基于Python的多线程聚焦网络爬虫设计与实现 被引量:3
1
作者 王美芝 支学超 刘财辉 《赣南师范大学学报》 2019年第6期35-38,共4页
在大数据时代下,人们要想从大量数据中找到自己需要的信息变得越来越困难,因此使用网络爬虫处理网络中大量的信息成为了必不可少的方法.本文利用Python语言设计并实现了一种多线程聚焦网络爬虫.首先,通过聚焦爬虫,获取目标网站数据,然... 在大数据时代下,人们要想从大量数据中找到自己需要的信息变得越来越困难,因此使用网络爬虫处理网络中大量的信息成为了必不可少的方法.本文利用Python语言设计并实现了一种多线程聚焦网络爬虫.首先,通过聚焦爬虫,获取目标网站数据,然后建立相应索引数据库.在爬取数据库的基础上,用户可以通过输入关键字,从多个网络地址URL中获取大量用户所需要的数据. 展开更多
关键词 PYTHON 网络爬虫 网络地址URL 多线程
下载PDF
基于属性代表的多粒度集成分类算法 被引量:4
2
作者 张清华 支学超 +2 位作者 王国胤 杨帆 薛付忠 《计算机学报》 EI CAS CSCD 北大核心 2022年第8期1712-1729,共18页
面对复杂多变的信息系统,传统的机器学习多分类模型无法实现一个动态分类的过程.序贯三支决策作为一种多粒度分类算法,常用于解决多粒度空间下动态分类问题.然而,序贯三支决策在粗粒度空间下容易产生决策冲突,在细粒度空间下要考虑很多... 面对复杂多变的信息系统,传统的机器学习多分类模型无法实现一个动态分类的过程.序贯三支决策作为一种多粒度分类算法,常用于解决多粒度空间下动态分类问题.然而,序贯三支决策在粗粒度空间下容易产生决策冲突,在细粒度空间下要考虑很多属性导致其分类效率不高以及无法对最终未分类对象进行处理.因此,本文结合集成学习和粒计算的思想提出了一种基于属性代表的多粒度集成分类算法.首先,通过选择每一粒层中分类能力较强的属性作为属性代表来构建分类器,形成基于属性代表的集成分类器.其次,通过评分表保留粗粒度空间下分类器的分类意见以减少细粒度下需要考虑的属性个数.最后,采用“相对最优”的策略,将反对率最少的决策类作为最终未分类对象的分类结果.通过实验验证,本文方法相比于序贯三支决策以及其他机器学习的多分类算法具有较好的鲁棒性、分类效率以及分类性能. 展开更多
关键词 动态分类 序贯三支决策 集成学习 属性代表 多粒度
下载PDF
融合相对密度与近邻关系的密度峰值聚类算法 被引量:7
3
作者 代永杨 张清华 支学超 《重庆邮电大学学报(自然科学版)》 CSCD 北大核心 2021年第5期791-805,共15页
密度峰值聚类算法(density peaks cluster,DPC)是一种基于密度的聚类算法,该算法可以聚类任意形状的类簇。在类簇间有密度差距的数据集上,DPC不能准确地选择聚类中心。DPC的非中心点分配策略会引起连续错误,影响算法的聚类效果。模糊k... 密度峰值聚类算法(density peaks cluster,DPC)是一种基于密度的聚类算法,该算法可以聚类任意形状的类簇。在类簇间有密度差距的数据集上,DPC不能准确地选择聚类中心。DPC的非中心点分配策略会引起连续错误,影响算法的聚类效果。模糊k近邻密度峰值算法(fuzzy k-nearest neighbor DPC,FKNN-DPC)是一种改进的DPC算法,该算法采用边界点检测并结合2步分配策略来避免连续错误。当类簇间有密度差距时,FKNN-DPC的边界点检测效果不理想,此外,其非中心点分配策略缺乏对样本近邻信息的考虑。定义相对密度(relative density)并结合近邻关系(nearest neighbor relationship)提出RN-DPC算法解决上述问题。针对DPC因为类簇间的密度差距而不能准确选择聚类中心的问题,定义相对密度用于消除类簇间的密度差距。基于反向k近邻关系检测边界点并且引入共享最近邻关系来对FKNN-DPC的分配策略进行改进。RN-DPC算法在人工数据集和真实数据集上分别与不同的聚类算法进行了对比,实验结果验证了RN-DPC算法的有效性和合理性。 展开更多
关键词 聚类 密度峰值 近邻关系 边界点检测 近邻分配
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部