期刊文献+
共找到80篇文章
< 1 2 4 >
每页显示 20 50 100
代价敏感惩罚AdaBoost算法的非平衡数据分类 被引量:3
1
作者 鲁淑霞 张振莲 翟俊海 《南京航空航天大学学报》 CAS CSCD 北大核心 2023年第2期339-346,共8页
针对非平衡数据分类问题,提出了一种基于代价敏感的惩罚AdaBoost算法。在惩罚Adaboost算法中,引入一种新的自适应代价敏感函数,赋予少数类样本及分错的少数类样本更高的代价值,并通过引入惩罚机制增大了样本的平均间隔。选择加权支持向... 针对非平衡数据分类问题,提出了一种基于代价敏感的惩罚AdaBoost算法。在惩罚Adaboost算法中,引入一种新的自适应代价敏感函数,赋予少数类样本及分错的少数类样本更高的代价值,并通过引入惩罚机制增大了样本的平均间隔。选择加权支持向量机(Support vector machine,SVM)优化模型作为基分类器,采用带有方差减小的随机梯度下降方法(Stochastic variance reduced gradient,SVRG)对优化模型进行求解。对比实验表明,本文提出的算法不但在几何均值(G-mean)和ROC曲线下的面积(Area under ROC curve,AUC)上明显优于其他算法,而且获得了较大的平均间隔,显示了本文算法在处理非平衡数据分类问题上的有效性。 展开更多
关键词 非平衡数据 惩罚AdaBoost 自适应代价敏感函数 平均间隔 随机梯度下降
下载PDF
邻域欠采样的AdaBoostv算法 被引量:1
2
作者 张振莲 鲁淑霞 翟俊海 《小型微型计算机系统》 CSCD 北大核心 2023年第1期97-102,共6页
针对类别非平衡情况下的类重叠问题,引入了两种基于邻域的欠采样方法:共同近邻搜索欠采样和递归搜索欠采样,其主要思想是通过消除重叠区域中的负类样本来缓解类别非平衡问题,学习算法采用AdaBoost v算法,通过最大化样本的最小间隔(最优... 针对类别非平衡情况下的类重叠问题,引入了两种基于邻域的欠采样方法:共同近邻搜索欠采样和递归搜索欠采样,其主要思想是通过消除重叠区域中的负类样本来缓解类别非平衡问题,学习算法采用AdaBoost v算法,通过最大化样本的最小间隔(最优间隔)来提高分类器的分类能力.为了进一步解决非平衡数据分类问题,AdaBoost v算法的基分类器采用加权最优间隔分布机模型,对模型中的间隔均值项和铰链损失项加权,权值是依据数据的非平衡比给出的,并利用带有方差减小的随机梯度下降方法对优化模型进行求解,以提高算法的收敛速度.对比实验表明,提出的算法在非平衡数据分类问题上具有明显的优势. 展开更多
关键词 欠采样 AdaBoost v 最优间隔分布机 类重叠问题 权值
下载PDF
卷积神经网络及其研究进展 被引量:18
3
作者 翟俊海 张素芳 郝璞 《河北大学学报(自然科学版)》 CAS 北大核心 2017年第6期640-651,共12页
深度学习是目前机器学习领域最热门的研究方向,轰动全球的AlphaGo就是用深度学习算法训练的.卷积神经网络是用深度学习算法训练的一种模型,它在计算机视觉领域应用广泛,而且获得了巨大的成功.本文的主要目的有2个:一是帮助读者深入理解... 深度学习是目前机器学习领域最热门的研究方向,轰动全球的AlphaGo就是用深度学习算法训练的.卷积神经网络是用深度学习算法训练的一种模型,它在计算机视觉领域应用广泛,而且获得了巨大的成功.本文的主要目的有2个:一是帮助读者深入理解卷积神经网络,包括网络结构、核心概念、操作和训练;二是对卷积神经网络的近期研究进展进行综述,重点综述了激活函数、池化、训练及应用4个方面的研究进展.另外,还对其面临的挑战和热点研究方向进行了讨论.本文将为从事相关研究的人员提供很好的帮助. 展开更多
关键词 机器学习 深度学习 卷积神经网络 计算机视觉 训练算法
下载PDF
图像特征提取研究 被引量:72
4
作者 翟俊海 赵文秀 王熙照 《河北大学学报(自然科学版)》 CAS 北大核心 2009年第1期106-112,共7页
图像特征提取是图像识别的关键步骤,图像特征提取的效果如何直接决定着图像识别的效果.如何从原始图像中提取具有较强表示能力的图像特征是智能图像处理的一个研究热点.本文旨在介绍各种图像特征提取方法的基本思想、特点和研究发展现状... 图像特征提取是图像识别的关键步骤,图像特征提取的效果如何直接决定着图像识别的效果.如何从原始图像中提取具有较强表示能力的图像特征是智能图像处理的一个研究热点.本文旨在介绍各种图像特征提取方法的基本思想、特点和研究发展现状,以引起国内学者的进一步关注. 展开更多
关键词 图像 图像识别 特征提取 小波变换 软计算
下载PDF
基于粗糙集技术的决策树归纳 被引量:12
5
作者 翟俊海 王熙照 张沧生 《计算机工程与应用》 CSCD 北大核心 2009年第18期45-47,共3页
ID3算法是一种典型的决策树归纳算法,它以信息增益作为选择扩展属性根结点的标准,并递归地生成决策树。但ID3算法倾向于选取属性取值较多的属性作为根结点,而且它假设训练集中各类别样例的比例应与实际问题领域里各类别样例的比例相同... ID3算法是一种典型的决策树归纳算法,它以信息增益作为选择扩展属性根结点的标准,并递归地生成决策树。但ID3算法倾向于选取属性取值较多的属性作为根结点,而且它假设训练集中各类别样例的比例应与实际问题领域里各类别样例的比例相同。提出一种新的基于粗糙集技术的决策树归纳算法,它是一种完全数据驱动的归纳算法,可以克服ID3算法的上述不足。 展开更多
关键词 决策树 ID3算法 粗糙集 上近似 下近似
下载PDF
ELM算法中随机映射作用的实验研究 被引量:6
6
作者 翟俊海 李塔 +1 位作者 翟梦尧 王熙照 《计算机工程》 CAS CSCD 2012年第20期164-168,共5页
通过实验研究ELM算法中随机映射的作用及神经网络中隐含层结点个数对网络泛化能力的影响。在35个数据集上进行实验,针对不同的数据集,找到网络的最优精度所对应的隐含层结点个数。实验结果表明,当随机映射使数据升维到一定维数时,网络... 通过实验研究ELM算法中随机映射的作用及神经网络中隐含层结点个数对网络泛化能力的影响。在35个数据集上进行实验,针对不同的数据集,找到网络的最优精度所对应的隐含层结点个数。实验结果表明,当随机映射使数据升维到一定维数时,网络性能得到提高。 展开更多
关键词 ELM算法 随机映射 神经网络 隐含层偏置 隐含层结点
下载PDF
最小相关性最大依赖度属性约简 被引量:11
7
作者 翟俊海 万丽艳 王熙照 《计算机科学》 CSCD 北大核心 2014年第12期148-150,154,共4页
在经典粗糙集中,基于重要度的决策表属性约简算法只考虑了决策属性与条件属性之间的依赖度,没有考虑约简中条件属性之间的相关性,由此求出的约简中可能依然包含冗余属性。针对这一问题,提出了一种改进算法,它利用最小相关性和最大依赖... 在经典粗糙集中,基于重要度的决策表属性约简算法只考虑了决策属性与条件属性之间的依赖度,没有考虑约简中条件属性之间的相关性,由此求出的约简中可能依然包含冗余属性。针对这一问题,提出了一种改进算法,它利用最小相关性和最大依赖度准则求决策表属性约简。与基于重要度的决策表属性约简算法相比,本算法求出的约简包含的属性个数少、冗余小。实验结果显示,本算法优于基于重要度的决策表属性约简算法。 展开更多
关键词 粗糙集 决策表 属性约简 最小相关性 最大依赖度
下载PDF
基于粗糙集相对分类信息熵和粒子群优化的特征选择方法 被引量:9
8
作者 翟俊海 刘博 张素芳 《智能系统学报》 CSCD 北大核心 2017年第3期397-404,共8页
特征选择是指从初始特征全集中,依据既定规则筛选出特征子集的过程,是数据挖掘的重要预处理步骤。通过剔除冗余属性,以达到降低算法复杂度和提高算法性能的目的。针对离散值特征选择问题,提出了一种将粗糙集相对分类信息熵和粒子群算法... 特征选择是指从初始特征全集中,依据既定规则筛选出特征子集的过程,是数据挖掘的重要预处理步骤。通过剔除冗余属性,以达到降低算法复杂度和提高算法性能的目的。针对离散值特征选择问题,提出了一种将粗糙集相对分类信息熵和粒子群算法相结合的特征选择方法,依托粒子群算法,以相对分类信息熵作为适应度函数,并与其他基于进化算法的特征选择方法进行了实验比较,实验结果表明本文提出的方法具有一定的优势。 展开更多
关键词 数据挖掘 特征选择 数据预处理 粗糙集 决策表 粒子群算法 信息熵 适应度函数
下载PDF
变精度相容粗糙集模型 被引量:6
9
作者 翟俊海 翟梦尧 +1 位作者 高原原 王熙照 《计算机工程与应用》 CSCD 2012年第26期134-138,143,共6页
将变精度粗糙集的思想引入相容粗糙集,提出了两种变精度相容粗糙集模型,在模型I中,目标概念的下近似和边界域的交集非空;在模型II中,目标概念的下近似和边界域的交集为空。研究了两种模型中上、下近似算子的基本性质、两种模型之间的关... 将变精度粗糙集的思想引入相容粗糙集,提出了两种变精度相容粗糙集模型,在模型I中,目标概念的下近似和边界域的交集非空;在模型II中,目标概念的下近似和边界域的交集为空。研究了两种模型中上、下近似算子的基本性质、两种模型之间的关系,以及与其他粗糙集模型之间的关系。 展开更多
关键词 粗糙集 上近似 下近似 变精度粗糙集 相容粗糙集
下载PDF
基于哈希技术和MapReduce的大数据集K-近邻算法 被引量:7
10
作者 翟俊海 张明阳 +1 位作者 王婷婷 郝璞 《计算机科学》 CSCD 北大核心 2017年第7期210-214,共5页
K-近邻是一种著名的分类算法。由于简单且易于实现,因此其被广泛应用于许多领域,如人脸识别、基因分类、决策支持等。然而,在大数据环境中,K-近邻算法变得非常低效,甚至不可行。针对这一问题,提出了一种基于哈希技术和MapReduce的大数据... K-近邻是一种著名的分类算法。由于简单且易于实现,因此其被广泛应用于许多领域,如人脸识别、基因分类、决策支持等。然而,在大数据环境中,K-近邻算法变得非常低效,甚至不可行。针对这一问题,提出了一种基于哈希技术和MapReduce的大数据集K-近邻分类算法。为了验证算法的有效性,在4个大数据集上进行了实验,结果显示,在保持分类能力的前提下,所提算法可以大幅度地提高K-近邻算法的效率。 展开更多
关键词 K-近邻 哈希技术 分类算法 大数据集
下载PDF
基于MapReduce的大数据主动学习 被引量:5
11
作者 翟俊海 张素芳 +2 位作者 王聪 沈矗 刘晓萌 《计算机应用》 CSCD 北大核心 2018年第10期2759-2763,共5页
针对传统的主动学习算法只能处理中小型数据集的问题,提出一种基于MapReduce的大数据主动学习算法。首先,在有类别标签的初始训练集上,用极限学习机(ELM)算法训练一个分类器,并将其输出用软最大化函数变换为一个后验概率分布。然后,将... 针对传统的主动学习算法只能处理中小型数据集的问题,提出一种基于MapReduce的大数据主动学习算法。首先,在有类别标签的初始训练集上,用极限学习机(ELM)算法训练一个分类器,并将其输出用软最大化函数变换为一个后验概率分布。然后,将无类别标签的大数据集划分为l个子集,并部署到l个云计算节点上。在每一个节点,用训练出的分类器并行地计算各个子集中样例的信息熵,并选择信息熵大的前q个样例进行类别标注,将标注类别的l×q个样例添加到有类别标签的训练集中。重复以上步骤直到满足预定义的停止条件。在Artificial、Skin、Statlog和Poker 4个数据集上与基于ELM的主动学习算法进行了比较,结果显示,所提算法在4个数据集上均能完成主动样例选择,而基于ELM的主动学习算法只在规模最小的数据集上能完成主动样例选择。实验结果表明,所提算法优于基于极限学习机的主动学习算法。 展开更多
关键词 大数据 主动学习 不确定性 极限学习机 样例选择
下载PDF
基于相容粗糙集技术的连续值属性决策树归纳 被引量:8
12
作者 翟俊海 翟梦尧 李胜杰 《计算机科学》 CSCD 北大核心 2012年第11期183-186,共4页
决策树是常用的数据挖掘方法,扩展属性的选择是决策树归纳的核心问题。基于离散化方法的连续值决策树归纳在选择扩展属性时,需要度量每一个条件属性的每一个割点的分类不确定性,并通过这些割点的不确定性选择扩展属性,其计算时间复杂度... 决策树是常用的数据挖掘方法,扩展属性的选择是决策树归纳的核心问题。基于离散化方法的连续值决策树归纳在选择扩展属性时,需要度量每一个条件属性的每一个割点的分类不确定性,并通过这些割点的不确定性选择扩展属性,其计算时间复杂度高。针对这一问题,提出了一种基于相容粗糙集技术的连续值属性决策树归纳方法。该方法首先利用相容粗糙集技术选择扩展属性,然后找出该属性的最优割点,分割样例集并递归地构建决策树。从理论上分析了该算法的计算时间复杂度,并在多个数据集上进行了实验。实验结果及对实验结果的统计分析均表明,提出的方法在计算复杂度和分类精度方面均优于其他相关方法。 展开更多
关键词 相容粗糙集 决策树 扩展属性 割点 统计分析
下载PDF
基于相对分类信息熵的进化特征选择算法 被引量:7
13
作者 翟俊海 刘博 张素芳 《模式识别与人工智能》 EI CSCD 北大核心 2016年第8期682-690,共9页
针对离散值数据集特征选择问题,提出基于相对分类信息熵的进化特征选择算法.使用遗传算法搜索最优特征子集,使用相对分类信息熵度量特征子集的重要性.以相对分类信息熵作为适应度函数,使用二进制编码问题的解,使用赌轮方法选择产生下一... 针对离散值数据集特征选择问题,提出基于相对分类信息熵的进化特征选择算法.使用遗传算法搜索最优特征子集,使用相对分类信息熵度量特征子集的重要性.以相对分类信息熵作为适应度函数,使用二进制编码问题的解,使用赌轮方法选择产生下一代个体.实验表明文中算法在测试精度上优于其它方法,此外还从理论上证明文中算法的可行性. 展开更多
关键词 特征选择 数据预处理 进化计算 遗传算法 信息熵
下载PDF
ID3算法的理论基础 被引量:6
14
作者 翟俊海 张素芳 王熙照 《兰州大学学报(自然科学版)》 CAS CSCD 北大核心 2007年第6期66-69,共4页
基于属性值并的权熵思想,通过构建模型,给出了一个属性的某几个属性值并的权熵之和不小于该属性单个属性值的权熵之和的结论,从理论上证明了ID3算法的合理性,为ID3算法提供了理论基础.
关键词 决策树 ID3算法 信息熵 划分
下载PDF
关于ID3算法的最优性证明 被引量:5
15
作者 翟俊海 张素芳 王熙照 《河北大学学报(自然科学版)》 CAS 北大核心 2006年第5期547-550,556,共5页
研究了一个属性的某几个属性值并的权熵之和与该属性单个属性值的权熵之和的关系.通过构建模型,从理论上证明了以信息熵作为度量标准,ID3算法是最优的,生成的树是最小的,产生的规则数是最少的.
关键词 决策树 ID3算法 信息熵 划分
下载PDF
基于小波变换和2DPCA的人脸识别 被引量:4
16
作者 翟俊海 翟梦尧 王华超 《河北大学学报(自然科学版)》 CAS 北大核心 2010年第5期574-579,共6页
主成分分析(principal component analysis:PCA)已成功用于人脸识别,但基于主成分分析的人脸识别方法需要将图像数据向量化,而向量化后的图像样本维数非常大,计算代价非常高.二维主成分分析(2 di mension principal component analysis:... 主成分分析(principal component analysis:PCA)已成功用于人脸识别,但基于主成分分析的人脸识别方法需要将图像数据向量化,而向量化后的图像样本维数非常大,计算代价非常高.二维主成分分析(2 di mension principal component analysis:2DPCA)直接处理图像数据,不需要向量化的过程,2DPCA降低了计算复杂度,但是2DPCA与PCA相比,需要存储更多的系数,即要占用更多的存储空间.本文提出了一种基于小波变换和2DPCA的人脸识别方法,可以克服上述缺点,实验结果证明了该方法的有效性. 展开更多
关键词 小波变换 人脸识别 主成分分析 特征脸 特征提取
下载PDF
粗糙模糊决策树归纳算法 被引量:9
17
作者 翟俊海 侯少星 王熙照 《南京大学学报(自然科学版)》 CAS CSCD 北大核心 2016年第2期306-312,共7页
模糊ID3算法处理的对象是具有模糊条件属性和模糊决策属性的模糊决策表,它利用平均模糊分类熵作为启发式选择扩展属性,利用模糊置信度作为叶子结点的终止条件.当用模糊ID3算法处理连续值和离散值决策表时,需要对连续值或离散值条件属性... 模糊ID3算法处理的对象是具有模糊条件属性和模糊决策属性的模糊决策表,它利用平均模糊分类熵作为启发式选择扩展属性,利用模糊置信度作为叶子结点的终止条件.当用模糊ID3算法处理连续值和离散值决策表时,需要对连续值或离散值条件属性进行模糊化.模糊化的关键是模糊测度的确定,但确定合适的模糊测度非常困难,而且模糊化会损失有用的信息.针对这些问题,基于粗糙模糊集技术,提出了一种模糊决策树归纳算法,称为粗糙模糊决策树(RFDT:Rough Fuzzy Decision Tree).RFDT可直接处理离散值模糊决策表,归纳模糊决策树,不需要模糊化的过程.和模糊ID3算法类似,RFDT也分为三步:(1)利用粗糙模糊依赖度作为启发式选择扩展属性;(2)用选择的扩展属性划分样例集合;(3)如果划分的样例集合满足终止条件,则算法终止;否则递归地重复步骤(1)和(2).提出的算法用Kosko模糊熵作为叶子结点的终止条件,并通过一个例子说明了模糊决策树的归纳过程. 展开更多
关键词 粗糙集 粗糙模糊集 决策树 模糊决策表 模糊熵
下载PDF
2种加速K-近邻方法的实验比较 被引量:3
18
作者 翟俊海 王婷婷 +2 位作者 张明阳 王耀达 刘明明 《河北大学学报(自然科学版)》 CAS 北大核心 2016年第6期650-656,共7页
K-近邻(K-NN:K-nearest neighbors)是著名的数据挖掘算法,应用非常广泛.K-NN思想简单,易于实现,其计算时间复杂度和空间复杂度都是O(n),n为训练集中包含的样例数.当训练集比较大时,特别是面对大数据集时,K-NN算法的效率会变得非常低,甚... K-近邻(K-NN:K-nearest neighbors)是著名的数据挖掘算法,应用非常广泛.K-NN思想简单,易于实现,其计算时间复杂度和空间复杂度都是O(n),n为训练集中包含的样例数.当训练集比较大时,特别是面对大数据集时,K-NN算法的效率会变得非常低,甚至不可行.本文用实验的方法比较了2种加速K-NN的方法,2种加速方法分别是压缩近邻(CNN:condensed nearest neighbor)方法和基于MapReduce的K-NN.具体地,在Hadoop环境下,用MapReduce编程实现了K-NN算法,并与CNN算法在8个数据集上进行了实验比较,得出了一些有价值的结论,对从事相关研究的人员具有一定的借鉴作用. 展开更多
关键词 K-近邻 数据挖掘 MAPREDUCE HADOOP
下载PDF
一种改进的样例约简支持向量机 被引量:4
19
作者 翟俊海 王婷婷 王熙照 《南京大学学报(自然科学版)》 CAS CSCD 北大核心 2013年第5期596-602,共7页
在以前工作的基础上,提出了一种改进的样例约简支持向量机,利用相容粗糙集方法求属性约简的边界域,并从中选择样例作为候选支持向量训练支持向量机.该方法的特点是可同时对属性和样例进行约简.实验结果证实了这种方法的有效性,能有效地... 在以前工作的基础上,提出了一种改进的样例约简支持向量机,利用相容粗糙集方法求属性约简的边界域,并从中选择样例作为候选支持向量训练支持向量机.该方法的特点是可同时对属性和样例进行约简.实验结果证实了这种方法的有效性,能有效地减少存储空间和执行时间. 展开更多
关键词 相容粗糙集 样例选择 支持向量机 最优分类超平面
下载PDF
基于Spark和SimHash的大数据K-近邻分类算法 被引量:3
20
作者 翟俊海 沈矗 +1 位作者 张素芳 王婷婷 《河北大学学报(自然科学版)》 CAS 北大核心 2019年第2期201-210,共10页
在笔者之前的工作中,提出了一种基于MapReduce和SimHash的大数据K-近邻算法(HMR-K-NN).虽然该算法能够有效解决大数据K-近邻算法的计算效率问题,运行时间远远低于基于MapReduce的K-近邻(MR-K-NN)所用的运行时间.然而,用MapReduce处理大... 在笔者之前的工作中,提出了一种基于MapReduce和SimHash的大数据K-近邻算法(HMR-K-NN).虽然该算法能够有效解决大数据K-近邻算法的计算效率问题,运行时间远远低于基于MapReduce的K-近邻(MR-K-NN)所用的运行时间.然而,用MapReduce处理大数据时,需要从磁盘读取数据,再将中间结果写回磁盘,导致系统的I/O开销极大,这大大降低了MapReduce的效率.与MapReduce不同,Spark是一种基于内存的计算框架,它将数据第1次从磁盘读入内存,生成一种抽象的内存对象RDD(resilient distributed datasets).此后,Spark只操作内存中的RDD,计算过程只涉及内存读写,因此大幅提升了数据处理效率.基于这一事实,对算法H-MR-K-NN进行了改进,提出了一种改进的算法(简记为HSpark-K-NN),可以进一步提高大数据K-近邻分类的运行效率. 展开更多
关键词 内存计算框架 K-近邻 哈希技术 分类算法 大数据集
下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部