期刊文献+
共找到23篇文章
< 1 2 >
每页显示 20 50 100
基于有向超图自适应卷积的链接预测模型
1
作者 赵文博 马紫彤 杨哲 《计算机应用》 北大核心 2025年第1期15-23,共9页
图神经网络(GNN)为链接预测提供了多样化的解决方案,但由于普通图的结构限制,目前的相关模型在充分利用顶点间的高阶及不对称信息方面存在明显的不足。针对以上问题,提出一种基于有向超图自适应卷积的链接预测模型。首先,使用有向超图... 图神经网络(GNN)为链接预测提供了多样化的解决方案,但由于普通图的结构限制,目前的相关模型在充分利用顶点间的高阶及不对称信息方面存在明显的不足。针对以上问题,提出一种基于有向超图自适应卷积的链接预测模型。首先,使用有向超图结构更充分地表示顶点间的高阶和方向信息,兼具超图和有向图的优势;其次,有向超图自适应卷积采用自适应信息传播方式替代传统有向超图中的定向信息传播方式,从而解决了有向超边尾部顶点不能有效更新嵌入的问题,同时解决多层卷积导致的顶点过度平滑问题。在Citeseer数据集上基于显式顶点特征的实验结果显示,在链接预测任务上,相较于有向超图神经网络(DHNN)模型,所提模型的ROC(Receiver Operating Characteristic)曲线下面积(AUC)指标提升了2.23个百分点,平均精度(AP)提升了1.31个百分点。因此,所提模型可以充分表达顶点间的关系,并有效提高链接预测任务的性能。 展开更多
关键词 图神经网络 有向超图 链接预测 超图卷积 表示学习 自适应卷积
下载PDF
基于改进扩散模型的温度预报 被引量:1
2
作者 方巍 袁众 薛琼莹 《中国科技论文》 CAS 2024年第2期215-223,共9页
针对传统数值预报模式计算时间长和计算资源消耗大的问题,以及现有深度学习预报方法在温度预报结果上不精确,且预测结果模糊的问题,提出了一个新的温度预报模型。首先,设计了一个时空信息捕捉模块,将该模块捕获的长期依赖信息,作为扩散... 针对传统数值预报模式计算时间长和计算资源消耗大的问题,以及现有深度学习预报方法在温度预报结果上不精确,且预测结果模糊的问题,提出了一个新的温度预报模型。首先,设计了一个时空信息捕捉模块,将该模块捕获的长期依赖信息,作为扩散模型的生成条件,赋予扩散模型预报的能力;其次,设计了一个新的平衡损失函数,同时保护了扩散模型的生成能力和时空信息捕捉模块对时空信息的捕捉能力;最后,基于美国国家环境预报中心的再分析数据进行预报,与现有的深度学习方法相比,所提模型预报结果的质量在均方误差(mean square error,MSE)上降低了17.3%,在均方根误差(root mean square error,RMSE)上降低了9.14%,在峰值信噪比(peak signal to noise ratio,PSNR)上提升了5.1%。改进的扩散模型能有效地捕捉时空依赖的关系,有效地进行时空序列预测,效果优于其他对比方法。 展开更多
关键词 时空序列预测 深度学习 扩散模型 时空捕捉模块 平衡损失函数
下载PDF
ENSOMIM:一种新型ENSO时空预测模型
3
作者 方巍 沙雨 张霄智 《中国科技论文》 CAS 2024年第2期143-152,177,共11页
为了提高厄尔尼诺南方涛动(El Ni?o-southern oscillation,ENSO)预测的准确性,解决卷积核难以捕获ENSO的长距离前兆的问题,将ENSO预测视为一个时空序列预测问题,并提出一种基于注意力机制和循环神经网络的ENSO非稳态时空预测深度学习模... 为了提高厄尔尼诺南方涛动(El Ni?o-southern oscillation,ENSO)预测的准确性,解决卷积核难以捕获ENSO的长距离前兆的问题,将ENSO预测视为一个时空序列预测问题,并提出一种基于注意力机制和循环神经网络的ENSO非稳态时空预测深度学习模型,称为ENSOMIM。该模型通过提出的新型注意力机制BGAM来局部和全局交互地学习空间特征,并使用高阶非线性时空网络对长期的时间序列特征进行编码。由于ENSO观测数据集样本数量少,为了更充分地训练模型,采用迁移学习的方法,使用历史模式模拟数据进行预训练再利用观测数据校正模型。实验结果表明,ENSOMIM更适合于大区域和长期的预测。在1984-2014年验证期间,ENSOMIM的Ni?o3.4指数的全季节相关性技巧比经典的卷积神经网络提高16%,均方误差降低17%,它可以为长达18个月的提前期提供有效预测,并且在23个月的提前期内相关技巧达到0.45。因此,ENSOMIM可以作为预测ENSO事件的有力工具。 展开更多
关键词 ENSO 气候灾害 时空序列预测 深度学习 神经网络
下载PDF
基于多级特征双向融合的小目标检测优化模型
4
作者 潘烨新 杨哲 《计算机应用》 CSCD 北大核心 2024年第9期2871-2877,共7页
由于自身特征较小以及网络的深度造成特征丢失等客观原因,小目标的检测一直是目标检测领域的难点问题。针对以上问题,提出基于网络结构进行多次特征增强以优化小目标检测的模型。首先,替换主干网络中的空间金字塔池化(SPP)以优化梯度计... 由于自身特征较小以及网络的深度造成特征丢失等客观原因,小目标的检测一直是目标检测领域的难点问题。针对以上问题,提出基于网络结构进行多次特征增强以优化小目标检测的模型。首先,替换主干网络中的空间金字塔池化(SPP)以优化梯度计算;其次,对网络颈部实行区分特征级别的多级双向融合,并对输出头添加自适应特征融合(AFF)模块,以实现多级的特征增强。实验结果表明,在COCO2017-val数据集上,当交并比(IoU)为0.5时,所提模型的平均精度均值达到61.4%,与目前较流行的YOLOv7模型相比提高了4.7个百分点,同时在单GPU上模型的检测帧率为78.2 frame/s,满足工业检测速度要求。 展开更多
关键词 深度学习 小目标 目标检测 计算机视觉 特征融合
下载PDF
基于兴趣函数的多样化Option-Critic算法
5
作者 栗军伟 刘全 +1 位作者 黄志刚 徐亚鹏 《计算机研究与发展》 EI CSCD 北大核心 2024年第12期3108-3120,共13页
Option框架作为分层强化学习的一种常用时序抽象方法,允许智能体在不同的时间尺度上学习策略,可以有效解决稀疏奖励问题.为了保证Option可以引导智能体访问更多的状态空间,一些方法通过引入基于互信息的内部奖励和终止函数来提升Option... Option框架作为分层强化学习的一种常用时序抽象方法,允许智能体在不同的时间尺度上学习策略,可以有效解决稀疏奖励问题.为了保证Option可以引导智能体访问更多的状态空间,一些方法通过引入基于互信息的内部奖励和终止函数来提升Option内部策略的多样性.但这会导致算法学习速度慢和内部策略的知识迁移能力低等问题,严重影响了算法性能.针对以上问题,提出基于兴趣函数优化的多样化Option-Critic算法(diversity-enriched Option-Critic algorithm with interest functions,DEOC-IF).该算法在多样化Option-Critic算法(diversity-enriched Option-Critic,DEOC)的基础上,通过引入兴趣函数约束上层策略对Option内部策略的选择,既保证了Option集合的多样性,又使得学习到的内部策略可以关注状态空间的不同区域,有利于提高算法的知识迁移能力,加快学习速度.此外,DEOC-IF算法引入一种新的兴趣函数更新梯度,有利于提高算法的探索能力.为了验证算法的有效性和知识迁移能力,分别在4房间导航任务、Mujoco和MiniWorld实验环境中,将DEOC-IF算法与其他最新算法进行对比实验.结果表明,DEOC-IF算法具有更好的性能优势和策略迁移能力. 展开更多
关键词 强化学习 时序抽象 Option框架 兴趣函数 Option-Critic算法
下载PDF
密度峰值聚类算法综述 被引量:55
6
作者 陈叶旺 申莲莲 +3 位作者 钟才明 王田 陈谊 杜吉祥 《计算机研究与发展》 EI CSCD 北大核心 2020年第2期378-394,共17页
密度峰值聚类(density peak,DPeak)算法是一种简单有效的聚类算法,它可将任意维度数据映射成2维,在降维后的空间中建构出数据之间的层次关系,可以非常容易地从中挑选出密度高、且与其他密度更高区域相隔较远的数据点.这些点被称为密度... 密度峰值聚类(density peak,DPeak)算法是一种简单有效的聚类算法,它可将任意维度数据映射成2维,在降维后的空间中建构出数据之间的层次关系,可以非常容易地从中挑选出密度高、且与其他密度更高区域相隔较远的数据点.这些点被称为密度峰值点,可以用来作为聚类中心.根据建构好的层次关系,该算法提供了2种不同的方式完成最后聚类:一种是与用户交互的决策图,另一种是自动化方式.跟踪了DPeak近年来的发展与应用动态,对该算法的各种改进或变种从以下3方面进行了总结和梳理:首先,介绍了DPeak算法原理,对其在聚类算法分类体系中的位置进行了讨论.将其与5个主要的聚类算法做了比较之后,发现DPeak与均值漂移聚类算法(mean shift)有诸多相似之处,因而认为其可能为mean shift的一个特殊变种.其次,讨论了DPeak的几个不足之处,如复杂度较高、自适应性不足、精度低和高维数据适用性差等,将针对这些缺点进行改进的相关算法做了分类讨论.此外,梳理了DPeak算法在不同领域中的应用,如自然语言处理、生物医学应用、光学应用等.最后,探讨了密度峰值聚类算法所存在的问题及挑战,同时对进一步的工作进行展望. 展开更多
关键词 聚类算法 密度峰值 大数据 数据挖掘 密度聚类
下载PDF
一种最大置信上界经验采样的深度Q网络方法 被引量:14
7
作者 朱斐 吴文 +1 位作者 刘全 伏玉琛 《计算机研究与发展》 EI CSCD 北大核心 2018年第8期1694-1705,共12页
由深度学习(deep learning,DL)和强化学习(reinforcement learning,RL)结合形成的深度强化学习(deep reinforcement learning,DRL)是目前人工智能领域的一个热点.深度强化学习在处理具有高维度输入的最优策略求解任务中取得了很大的突破... 由深度学习(deep learning,DL)和强化学习(reinforcement learning,RL)结合形成的深度强化学习(deep reinforcement learning,DRL)是目前人工智能领域的一个热点.深度强化学习在处理具有高维度输入的最优策略求解任务中取得了很大的突破.为了减少转移状态之间暂时的相关性,传统深度Q网络使用经验回放的采样机制,从缓存记忆中随机采样转移样本.然而,随机采样并不考虑缓存记忆中各个转移样本的优先级,导致网络训练过程中可能会过多地采用信息较低的样本,而忽略一些高信息量的样本,结果不但增加了训练时间,而且训练效果也不理想.针对此问题,在传统深度Q网络中引入优先级概念,提出基于最大置信上界的采样算法,通过奖赏、时间步、采样次数共同决定经验池中样本的优先级,提高未被选择的样本、更有信息价值的样本以及表现优秀的样本的被选概率,保证了所采样本的多样性,使智能体能更有效地选择动作.最后,在Atari 2600的多个游戏环境中进行仿真实验,验证了算法的有效性. 展开更多
关键词 强化学习 深度强化学习 最大置信上界 经验回放 深度Q网络
下载PDF
一种解决连续空间问题的真实在线自然梯度AC算法 被引量:5
8
作者 朱斐 朱海军 +2 位作者 刘全 陈冬火 伏玉琛 《软件学报》 EI CSCD 北大核心 2018年第2期267-282,共16页
策略梯度作为一种能够有效解决连续空间决策问题的方法得到了广泛研究,但由于在策略估计过程中存在较大方差,因此,基于策略梯度的方法往往受到样本利用率低、收敛速度慢等限制.针对该问题,在行动者-评论家(actor-critic,简称AC)算法框架... 策略梯度作为一种能够有效解决连续空间决策问题的方法得到了广泛研究,但由于在策略估计过程中存在较大方差,因此,基于策略梯度的方法往往受到样本利用率低、收敛速度慢等限制.针对该问题,在行动者-评论家(actor-critic,简称AC)算法框架下,提出了真实在线增量式自然梯度AC(true online incremental natural actor-critic,简称TOINAC)算法.TOINAC算法采用优于传统梯度的自然梯度,在真实在线时间差分(true online time difference,简称TOTD)算法的基础上,提出了一种新型的前向观点,改进了自然梯度行动者-评论家算法.在评论家部分,利用TOTD算法高效性的特点来估计值函数;在行动者部分,引入一种新的前向观点来估计自然梯度,再利用资格迹将自然梯度估计变为在线估计,提高了自然梯度估计的准确性和算法的效率.将TOINAC算法与核方法以及正态策略分布相结合,解决了连续空间问题.最后,在平衡杆、Mountain Car以及Acrobot等连续问题上进行了仿真实验,验证了算法的有效性. 展开更多
关键词 策略梯度 自然梯度 行动者-评论家 真实在线TD 核方法
下载PDF
面向大规模数据的DBSCAN加速算法综述 被引量:4
9
作者 陈叶旺 曹海露 +3 位作者 陈谊 康昭 雷震 杜吉祥 《计算机研究与发展》 EI CSCD 北大核心 2023年第9期2028-2047,共20页
DBSCAN(density-based spatial clustering of applications with noise)是应用最广的密度聚类算法之一.然而,它时间复杂度过高(O(n^(2))),无法处理大规模数据.因而,对它进行加速成为一个研究热点,众多富有成效的工作不断涌现.从加速目... DBSCAN(density-based spatial clustering of applications with noise)是应用最广的密度聚类算法之一.然而,它时间复杂度过高(O(n^(2))),无法处理大规模数据.因而,对它进行加速成为一个研究热点,众多富有成效的工作不断涌现.从加速目标上看,这些工作大体上可分为减少冗余计算和并行化两大类;就具体加速手段而言,可分为6个主要类别:基于分布式、基于采样化、基于近似模糊、基于快速近邻、基于空间划分以及基于GPU加速技术.根据该分类,对现有工作进行了深入梳理与交叉比较,发现采用多重技术的融合加速算法优于单一加速技术;近似模糊化、并行化与分布式是当前最有效的手段;高维数据仍然难以应对.此外,对快速化DBSCAN算法在多个领域中的应用进行了跟踪报告.最后,对本领域未来的方向进行了展望. 展开更多
关键词 快速化DBSCAN 密度聚类 聚类算法 大数据 数据挖掘
下载PDF
基于受限MDP的无模型安全强化学习方法 被引量:3
10
作者 朱斐 葛洋洋 +1 位作者 凌兴宏 刘全 《软件学报》 EI CSCD 北大核心 2022年第8期3086-3102,共17页
很多强化学习方法较少地考虑决策的安全性,但研究领域和工业应用领域都要求的智能体所做决策是安全的.解决智能体决策安全问题的传统方法主要有改变目标函数、改变智能体的探索过程等,然而这些方法忽略了智能体遭受的损害和成本,因此不... 很多强化学习方法较少地考虑决策的安全性,但研究领域和工业应用领域都要求的智能体所做决策是安全的.解决智能体决策安全问题的传统方法主要有改变目标函数、改变智能体的探索过程等,然而这些方法忽略了智能体遭受的损害和成本,因此不能有效地保障决策的安全性.在受限马尔可夫决策过程的基础上,通过对动作空间添加安全约束,设计了安全Sarsa(λ)方法和安全Sarsa方法.在求解过程中,不仅要求智能体得到最大的状态-动作值,还要求其满足安全约束的限制,从而获得安全的最优策略.由于传统的强化学习求解方法不再适用于求解带约束的安全Sarsa(λ)模型和安全Sarsa模型,为在满足约束条件下得到全局最优状态-动作值函数,提出了安全强化学习的求解模型.求解模型基于线性化多维约束,采用拉格朗日乘数法,在保证状态-动作值函数和约束函数具有可微性的前提下,将安全强化学习模型转化为凸模型,避免了在求解过程中陷入局部最优解的问题,提高了算法的求解效率和精确度.同时,给出了算法的可行性证明.最后,实验验证了算法的有效性. 展开更多
关键词 受限马尔可夫决策过程 安全强化学习 多维约束 Sarsa(λ)算法 Sarsa算法
下载PDF
深度分层强化学习研究与发展 被引量:9
11
作者 黄志刚 刘全 +2 位作者 张立华 曹家庆 朱斐 《软件学报》 EI CSCD 北大核心 2023年第2期733-760,共28页
深度分层强化学习是深度强化学习领域的一个重要研究方向,它重点关注经典深度强化学习难以解决的稀疏奖励、顺序决策和弱迁移能力等问题.其核心思想在于:根据分层思想构建具有多层结构的强化学习策略,运用时序抽象表达方法组合时间细粒... 深度分层强化学习是深度强化学习领域的一个重要研究方向,它重点关注经典深度强化学习难以解决的稀疏奖励、顺序决策和弱迁移能力等问题.其核心思想在于:根据分层思想构建具有多层结构的强化学习策略,运用时序抽象表达方法组合时间细粒度的下层动作,学习时间粗粒度的、有语义的上层动作,将复杂问题分解为数个简单问题进行求解.近年来,随着研究的深入,深度分层强化学习方法已经取得了实质性的突破,且被应用于视觉导航、自然语言处理、推荐系统和视频描述生成等生活领域.首先介绍了分层强化学习的理论基础;然后描述了深度分层强化学习的核心技术,包括分层抽象技术和常用实验环境;详细分析了基于技能的深度分层强化学习框架和基于子目标的深度分层强化学习框架,对比了各类算法的研究现状和发展趋势;接下来介绍了深度分层强化学习在多个现实生活领域中的应用;最后,对深度分层强化学习进行了展望和总结. 展开更多
关键词 人工智能 强化学习 深度强化学习 半马尔可夫决策过程 深度分层强化学习
下载PDF
基于带权词格的循环神经网络句子语义表示建模 被引量:2
12
作者 张祥文 陆紫耀 +4 位作者 杨静 林倩 卢宇 王鸿吉 苏劲松 《计算机研究与发展》 EI CSCD 北大核心 2019年第4期854-865,共12页
目前,循环神经网络(recurrent neural network, RNN)已经被广泛应用于自然语言处理的文本序列语义表示建模.对于没有词语分隔符的语言,例如中文,该网络以经过分词预处理的词序列作为标准输入.然而,非最优的分词粒度和分词错误会对句子... 目前,循环神经网络(recurrent neural network, RNN)已经被广泛应用于自然语言处理的文本序列语义表示建模.对于没有词语分隔符的语言,例如中文,该网络以经过分词预处理的词序列作为标准输入.然而,非最优的分词粒度和分词错误会对句子语义表示建模产生负面作用,影响后续自然语言处理任务的进行.针对这些问题,提出基于带权词格的循环神经网络模型.该模型以带权词格作为输入,在每个时刻融合多个输入向量和对应的隐状态,融合生成新的隐状态.带权词格是一种包含指数级别分词结果的压缩数据结构,词格中的边权重在一定程度上体现了不同分词结果的一致性.特别地,利用词格权重作为融合函数中权重建模的监督信息,进一步提升了模型句子语义表示的学习效果.相比于传统循环神经网络,该模型不仅能够缓解分词错误对句子语义建模产生的负面影响,同时使得语义建模具有更强的灵活性.在情感分类和问句分类2个任务上的实验结果证明了该模型的有效性. 展开更多
关键词 带权词格 循环神经网络 句子语义建模 情感分类 问句分类
下载PDF
基于多尺度多列卷积神经网络的密集人群计数模型 被引量:9
13
作者 陆金刚 张莉 《计算机应用》 CSCD 北大核心 2019年第12期3445-3449,共5页
针对尺度和视角变化导致的监控视频和图像中的人数估计性能差的问题,提出了一种基于多尺度多列卷积神经网络(MsMCNN)的密集人群计数模型。在使用MsMCNN进行特征提取之前,使用高斯滤波器对数据集进行处理得到图像的真实密度图,并且对数... 针对尺度和视角变化导致的监控视频和图像中的人数估计性能差的问题,提出了一种基于多尺度多列卷积神经网络(MsMCNN)的密集人群计数模型。在使用MsMCNN进行特征提取之前,使用高斯滤波器对数据集进行处理得到图像的真实密度图,并且对数据集进行数据增强。MsMCNN以多列卷积神经网络的结构为主干,首先从具有多尺度的多个列中提取特征图;然后,用MsMCNN在同一列上连接具有相同分辨率的特征图,以生成图像的估计密度图;最后,对估计密度图进行积分来完成人群计数的任务。为了验证所提模型的有效性,在Shanghaitech数据集和UCFCC50数据集上进行了实验,与经典模型Crowdnet、多列卷积神经网络(MCNN)、级联多任务学习(CMTL)方法、尺度自适应卷积神经网络(SaCNN)相比,所提模型在Shanghaitech数据集PartA和UCFCC50数据集上平均绝对误差(MAE)分别至少减小了10.6和24.5,均方误差(MSE)分别至少减小了1.8和29.3;在Shanghaitech数据集PartB上也取得了较好的结果。MsMCNN更注重特征提取过程中的浅层特征的结合以及多尺度特征的结合,可以有效减少尺度和视角变化带来的精确度偏低的影响,提升人群计数的性能。 展开更多
关键词 密集人群计数 密度图 卷积神经网络 多尺度 尺度和视角变化
下载PDF
逆向强化学习研究综述 被引量:2
14
作者 张立华 刘全 +1 位作者 黄志刚 朱斐 《软件学报》 EI CSCD 北大核心 2023年第10期4772-4803,共32页
逆向强化学习(inverse reinforcement learning,IRL)也称为逆向最优控制(inverse optimal control,IOC),是强化学习和模仿学习领域的一种重要研究方法,该方法通过专家样本求解奖赏函数,并根据所得奖赏函数求解最优策略,以达到模仿专家... 逆向强化学习(inverse reinforcement learning,IRL)也称为逆向最优控制(inverse optimal control,IOC),是强化学习和模仿学习领域的一种重要研究方法,该方法通过专家样本求解奖赏函数,并根据所得奖赏函数求解最优策略,以达到模仿专家策略的目的.近年来,逆向强化学习在模仿学习领域取得了丰富的研究成果,已广泛应用于汽车导航、路径推荐和机器人最优控制等问题中.首先介绍逆向强化学习理论基础,然后从奖赏函数构建方式出发,讨论分析基于线性奖赏函数和非线性奖赏函数的逆向强化学习算法,包括最大边际逆向强化学习算法、最大熵逆向强化学习算法、最大熵深度逆向强化学习算法和生成对抗模仿学习等.随后从逆向强化学习领域的前沿研究方向进行综述,比较和分析该领域代表性算法,包括状态动作信息不完全逆向强化学习、多智能体逆向强化学习、示范样本非最优逆向强化学习和指导逆向强化学习等.最后总结分析当前存在的关键问题,并从理论和应用方面探讨未来的发展方向. 展开更多
关键词 逆向强化学习 模仿学习 生成对抗模仿学习 逆向最优控制 强化学习
下载PDF
基于余弦相似度的多模态模仿学习方法 被引量:9
15
作者 郝少璞 刘全 +2 位作者 徐平安 张立华 黄志刚 《计算机研究与发展》 EI CSCD 北大核心 2023年第6期1358-1372,共15页
生成对抗模仿学习(generative adversarial imitation learning,GAIL)是一种基于生成对抗框架的逆向强化学习(inverse reinforcement learning,IRL)方法,旨在从专家样本中模仿专家策略.在实际任务中,专家样本往往由多模态策略产生.然而... 生成对抗模仿学习(generative adversarial imitation learning,GAIL)是一种基于生成对抗框架的逆向强化学习(inverse reinforcement learning,IRL)方法,旨在从专家样本中模仿专家策略.在实际任务中,专家样本往往由多模态策略产生.然而,现有的GAIL方法大部分假设专家样本产自于单一模态策略,导致生成对抗模仿学习只能学习到部分模态策略,即出现模式塌缩问题,这极大地限制了模仿学习方法在多模态任务中的应用.针对模式塌缩问题,提出了基于余弦相似度的多模态模仿学习方法(multi-modal imitation learning method with cosine similarity,MCS-GAIL).该方法引入编码器和策略组,通过编码器提取专家样本的模态特征,计算采样样本与专家样本之间特征的余弦相似度,并将其加入策略组的损失函数中,引导策略组学习对应模态的专家策略.此外,MCS-GAIL使用新的极小极大博弈公式指导策略组以互补的方式学习不同模态策略.在假设条件成立的情况下,通过理论分析证明了MCS-GAIL的收敛性.为了验证方法的有效性,将MCS-GAIL用于格子世界和MuJoCo平台上,并与现有模式塌缩方法进行比较.实验结果表明,MCS-GAIL在所有环境中均能有效学习到多个模态策略,且具有较高的准确性和稳定性. 展开更多
关键词 逆向强化学习 生成对抗模仿学习 多模态 模式塌缩 余弦相似度
下载PDF
基于经验指导的深度确定性多行动者-评论家算法 被引量:6
16
作者 陈红名 刘全 +3 位作者 闫岩 何斌 姜玉斌 张琳琳 《计算机研究与发展》 EI CSCD 北大核心 2019年第8期1708-1720,共13页
连续控制问题一直是强化学习研究的一个重要方向.近些年深度学习的发展以及确定性策略梯度(deterministic policy gradients, DPG)算法的提出,为解决连续控制问题提供了很多好的思路.这类方法大多在动作空间中加入外部噪声源进行探索,... 连续控制问题一直是强化学习研究的一个重要方向.近些年深度学习的发展以及确定性策略梯度(deterministic policy gradients, DPG)算法的提出,为解决连续控制问题提供了很多好的思路.这类方法大多在动作空间中加入外部噪声源进行探索,但是它们在一些连续控制任务中的表现并不是很好.为更好地解决探索问题,提出了一种基于经验指导的深度确定性多行动者评论家算法(experience-guided deep deterministic actor-critic with multi-actor, EGDDAC-MA),该算法不需要外部探索噪声,而是从自身优秀经验中学习得到一个指导网络,对动作选择和值函数的更新进行指导.此外,为了缓解网络学习的波动性,算法使用多行动者评论家模型,模型中的多个行动者网络之间互不干扰,各自执行情节的不同阶段.实验表明:相比于DDPG,TRPO和PPO算法,EGDDAC-MA算法在GYM仿真平台中的大多数连续任务中有更好的表现. 展开更多
关键词 强化学习 深度强化学习 确定性行动者评论家 经验指导 专家指导 多行动者
下载PDF
基于单核苷酸统计和支持向量机集成的人类基因启动子识别 被引量:1
17
作者 徐文轩 张莉 《计算机应用》 CSCD 北大核心 2015年第10期2808-2812,共5页
为高效地判别人类基因启动子,提出了一种基于单核苷酸统计和支持向量机集成的人类基因启动子识别算法。首先通过基因单核苷酸统计,从而将一个基因数据集分为C偏好和G偏好两个子集;然后分别对这两个子集提取DNA刚性特征、词频统计特征和C... 为高效地判别人类基因启动子,提出了一种基于单核苷酸统计和支持向量机集成的人类基因启动子识别算法。首先通过基因单核苷酸统计,从而将一个基因数据集分为C偏好和G偏好两个子集;然后分别对这两个子集提取DNA刚性特征、词频统计特征和Cp G岛特征;最后采用多个支持向量机(SVM)集成的方式来学习这三种特征,并讨论了三种集成方式,包括单层SVM集成、双层SVM集成和级联SVM集成。实验结果表明所提算法能够提高人类基因启动子识别的敏感性和特异性,其中双层SVM集成的敏感性达到79.51%,且级联SVM集成的特异性高达84.58%。 展开更多
关键词 CPG岛 DNA刚性 人类启动子识别 KL散度 单核苷酸统计 支持向量机
下载PDF
一种权重平均值的深度双Q网络方法 被引量:5
18
作者 吴金金 刘全 +1 位作者 陈松 闫岩 《计算机研究与发展》 EI CSCD 北大核心 2020年第3期576-589,共14页
深度强化学习算法的不稳定性和可变性对其性能有重要的影响.深度Q网络模型在处理需要感知高维输入数据的决策控制任务中性能良好.然而,深度Q网络存在着高估动作值使agent性能变差的问题.尽管深度双Q网络能够缓解高估带来的影响,但是仍... 深度强化学习算法的不稳定性和可变性对其性能有重要的影响.深度Q网络模型在处理需要感知高维输入数据的决策控制任务中性能良好.然而,深度Q网络存在着高估动作值使agent性能变差的问题.尽管深度双Q网络能够缓解高估带来的影响,但是仍然存在低估动作值的问题.在一些复杂的强化学习环境中,即使是很小的估计误差也会对学习到的策略产生很大影响.为了解决深度Q网络中高估动作值和深度双Q网络中低估动作值的问题,提出一种基于权重平均值的深度双Q网络方法(averaged weighted double deep Q-network,AWDDQN),该方法将带权重的双估计器整合到深度双Q网络中.为了进一步地减少目标值的估计误差,通过计算之前学习到的动作估计值的平均值来产生目标值,并且根据时间差分误差动态地确定平均动作值的数量.实验结果表明:AWDDQN方法可以有效减少估计偏差,并且能够提升agent在部分Atari 2600游戏中的表现. 展开更多
关键词 深度强化学习 深度Q网络 估计误差 权重双估计器 时间差分
下载PDF
基于属性约简和支持向量机集成的乳腺癌诊断决策 被引量:3
19
作者 卢星凝 张莉 《计算机应用》 CSCD 北大核心 2015年第10期2793-2797,共5页
针对遗传算法(GA)与支持向量机(SVM)集成相结合的疾病诊断方法存在属性冗余的问题,提出了一种改进的约简和诊断乳腺癌决策方法。该方法将最小化约简属性个数、最大化区分矩阵可区别属性的个数以及最大化约简属性对决策属性的依赖度这三... 针对遗传算法(GA)与支持向量机(SVM)集成相结合的疾病诊断方法存在属性冗余的问题,提出了一种改进的约简和诊断乳腺癌决策方法。该方法将最小化约简属性个数、最大化区分矩阵可区别属性的个数以及最大化约简属性对决策属性的依赖度这三种目标函数相结合作为GA的适应度函数。在约简属性后取多个子集,以便利用SVM集成学习。在UCI数据库中乳腺癌数据集的实验表明,与原始的SVM算法相比,该方法在分类诊断的准确度以及敏感性方面有一定的提高,其中分类准确度至少提高了2%。 展开更多
关键词 粗糙集 支持向量机 属性约简 乳腺癌诊断 遗传算法
下载PDF
基于元数据逻辑无关片断的结构完整性检测方法 被引量:3
20
作者 赵晓非 史忠植 刘建伟 《计算机研究与发展》 EI CSCD 北大核心 2020年第9期1961-1970,共10页
高效地执行结构完整性检测是基于元对象设施(meta object facility,MOF)的存储库系统一致性领域的研究热点之一.借助逻辑学手段,提出了一种高效、自动地检测结构完整性的方法.首先针对MOF存储库框架的特点研究了如何将元数据的不同层次... 高效地执行结构完整性检测是基于元对象设施(meta object facility,MOF)的存储库系统一致性领域的研究热点之一.借助逻辑学手段,提出了一种高效、自动地检测结构完整性的方法.首先针对MOF存储库框架的特点研究了如何将元数据的不同层次转换进描述逻辑SROIQ(D)知识库,在此基础上研究了如何对元数据进行抽取以提高检测过程的效率.提出了元数据逻辑无关片断的概念,通过分别抽取属性演绎片断和类属演绎片断,给出了生成最小逻辑无关片断的方法.由于该种片断是给定的元数据元素逻辑蕴含的闭包,因此完整地保留了给定元数据元素的相关全部信息从而使得检测可以在较小的元数据集上进行,而不必针对整个存储库,最后给出了基于逻辑无关片断的结构完整性检测方法.实验结果表明所产生的元数据片断的平均规模显著地小于其原始规模,在此基础上执行的检测的效率提升从1.47~3.31倍不等,与相关方法的时间性能对比亦展示了所提出方法的有效性. 展开更多
关键词 逻辑无关片断 结构完整性 存储库系统 元对象设施 元数据
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部