期刊文献+
共找到40篇文章
< 1 2 >
每页显示 20 50 100
样本有限关联值递归Q学习算法及其收敛性证明 被引量:4
1
作者 殷苌茗 陈焕文 谢丽娟 《计算机研究与发展》 EI CSCD 北大核心 2002年第9期1064-1070,共7页
一个激励学习 Agent通过学习一个从状态到动作映射的最优策略来解决策问题 .求解最优决策一般有两种途径 :一种是求最大奖赏方法 ,另一种是求最优费用方法 .利用求解最优费用函数的方法给出了一种新的 Q学习算法 .Q学习算法是求解信息... 一个激励学习 Agent通过学习一个从状态到动作映射的最优策略来解决策问题 .求解最优决策一般有两种途径 :一种是求最大奖赏方法 ,另一种是求最优费用方法 .利用求解最优费用函数的方法给出了一种新的 Q学习算法 .Q学习算法是求解信息不完全 Markov决策问题的一种有效激励学习方法 .Watkins提出了 Q学习的基本算法 ,尽管他证明了在满足一定条件下 Q值学习的迭代公式的收敛性 ,但是在他给出的算法中 ,没有考虑到在迭代过程中初始状态与初始动作的选取对后继学习的影响 .因此提出的关联值递归 Q学习算法改进了原来的 Q学习算法 ,并且这种算法有比较好的收敛性质 .从求解最优费用函数的方法出发 ,给出了 Q学习的关联值递归算法 ,这种方法的建立可以使得动态规划 (DP)算法中的许多结论直接应用到 Q学习的研究中来 . 展开更多
关键词 关联值递归 Q学习算法 收敛性证明 激励学习 最优费用函数 MARKOV决策过程 人工智能
下载PDF
基于有限样本的最优费用关联值递归Q学习算法 被引量:4
2
作者 殷苌茗 陈焕文 谢丽娟 《计算机工程与应用》 CSCD 北大核心 2002年第11期65-67,共3页
一个激励学习Agent通过学习一个从状态到动作映射的最优策略来求解决策问题。求解最优决策一般有两种途径,一种是求最大奖赏方法,另一种是求最优费用方法。该文利用求解最优费用函数的方法给出了一种新的Q学习算法。Q学习算法是求解信... 一个激励学习Agent通过学习一个从状态到动作映射的最优策略来求解决策问题。求解最优决策一般有两种途径,一种是求最大奖赏方法,另一种是求最优费用方法。该文利用求解最优费用函数的方法给出了一种新的Q学习算法。Q学习算法是求解信息不完全Markov决策问题的一种有效激励学习方法。文章从求解最优费用函数的方法出发,给出了Q学习的关联值递归算法,这种方法的建立,可以使得动态规划(DP)算法中的许多结论直接应用到Q学习的研究中来。 展开更多
关键词 有限样本 最优费用 关联值递归 Q学习算法 人工智能
下载PDF
基于每阶段平均费用最优的激励学习算法 被引量:3
3
作者 殷苌茗 陈焕文 谢丽娟 《计算机应用》 CSCD 北大核心 2002年第4期25-27,共3页
文中利用求解最优费用函数的方法给出了一种新的激励学习算法 ,即基于每阶段平均费用最优的激励学习算法。这种学习算法是求解信息不完全Markov决策问题的一种有效激励学习方法 ,它从求解分阶段最优平均费用函数的方法出发 ,分析了最优... 文中利用求解最优费用函数的方法给出了一种新的激励学习算法 ,即基于每阶段平均费用最优的激励学习算法。这种学习算法是求解信息不完全Markov决策问题的一种有效激励学习方法 ,它从求解分阶段最优平均费用函数的方法出发 ,分析了最优解的存在性、分阶段最优平均费用函数与初始状态的关系以及与之相关的Bellman方程。这种方法的建立 ,可以使得动态规划 (DP) 展开更多
关键词 Q学习 最优平均费用函数 Bellman方程 智能体 激励学习算法 人工智能
下载PDF
求解POMDP的动态合并激励学习算法 被引量:1
4
作者 殷苌茗 王汉兴 +1 位作者 陈焕文 谢丽娟 《计算机工程》 EI CAS CSCD 北大核心 2005年第22期4-6,148,共4页
把POMDP作为激励学习(ReinforcementLearning)问题的模型,对于具有大状态空间问题的求解有比较好的适应性和有效性。但由于其求解的难度远远地超过了一般的Markov决策过程(MDP)的求解,因此还有许多问题有待解决。该文基于这样的背景,在... 把POMDP作为激励学习(ReinforcementLearning)问题的模型,对于具有大状态空间问题的求解有比较好的适应性和有效性。但由于其求解的难度远远地超过了一般的Markov决策过程(MDP)的求解,因此还有许多问题有待解决。该文基于这样的背景,在给定一些特殊的约束条件下提出的一种求解POMDP的方法,即求解POMDP的动态合并激励学习算法。该方法利用区域的概念,在环境状态空间上建立一个区域系统,Agent在区域系统的每个区域上独自并行地实现其最优目标,加快了运算速度。然后把各组成部分的最优值函数按一定的方式整合,最后得出POMDP的最优解。 展开更多
关键词 部分可观测Markov决策过程 激励学习 动态合并 信度状态
下载PDF
风险敏感度激励学习的广义平均算法 被引量:1
5
作者 殷苌茗 王汉兴 +1 位作者 赵飞 郭兴明 《应用数学和力学》 CSCD 北大核心 2007年第3期369-378,共10页
提出了一种新的算法.这个算法通过潜在地牺牲控制策略的最优性来获取其鲁棒性.这是因为,如果在理论模型与实际的物理系统之间存在不匹配,或者实际系统是非静态的,或者控制动作的可使用性随时间的变化而变化时,那么鲁棒性就可能成为一个... 提出了一种新的算法.这个算法通过潜在地牺牲控制策略的最优性来获取其鲁棒性.这是因为,如果在理论模型与实际的物理系统之间存在不匹配,或者实际系统是非静态的,或者控制动作的可使用性随时间的变化而变化时,那么鲁棒性就可能成为一个十分重要的问题.主要工作是给出了一组逼近算法和它们的收敛结果.利用广义平均算子来替代最优算子max(或min),对激励学习中的一类最重要的算法——动态规划算法——进行了研究,并讨论了它们的收敛性,目的就是为了提高激励学习算法的鲁棒性.同时使用了更具一般性的风险敏感度性能评价体系,发现基于动态规划的学习算法中的一般结论在这种体系之下并不完全成立. 展开更多
关键词 激励学习 风险敏感度 广义平均 算法 收敛性
下载PDF
分布式异构实时监控数据库系统的设计与实现 被引量:1
6
作者 殷苌茗 何桂华 龚红仿 《长沙水电师院学报(自然科学版)》 2001年第3期27-30,共4页
在开发发电厂分布式实时监控与数据库管理系统时 ,常常遇到这样的两个问题 :一是在作发电机组的实时监控与实时数据库管理系统的开发过程中 ,各系统的开发是分批进行的 ,也就是说如果某发电厂有四台发电机组 ,可能由于投资方面的原因 ,... 在开发发电厂分布式实时监控与数据库管理系统时 ,常常遇到这样的两个问题 :一是在作发电机组的实时监控与实时数据库管理系统的开发过程中 ,各系统的开发是分批进行的 ,也就是说如果某发电厂有四台发电机组 ,可能由于投资方面的原因 ,需要 2~ 4年才能完成 ,而且每台发电机组的系统开发组织不是同一个 ;另外一个问题是当所有的独立系统开发完成之后 ,由于各个系统所使用的网络技术和网络体系结构各不相同 ,各系统所开发的数据库也各不相同 ,因此需要将它们进行集成 ,形成全盘的实时分布式监控与数据库管理系统 .本文对以上遇到的问题进行了比较详细的讨论 ,对异构网络的互连方案、异构网络环境下实现分布式特性的解决方案、异构网络环境下的实时通信问题的解决方案以及异构数据库系统之间的数据交换与实时共享问题的解决方案进行了设计 . 展开更多
关键词 分布式实时监控系统 异构实时控制数据库 异构网络 实时通信 ODBC 数据库管理系统
下载PDF
基于组合神经网络的Sarsa(λ)学习算法
7
作者 殷苌茗 付超红 +1 位作者 薛丽华 李立云 《计算机工程与设计》 CSCD 北大核心 2008年第22期5817-5819,5823,共4页
标准的Sarsa(λ)算法对状态空间的要求是离散的且空间较小,而实际问题中很多系统的状态空间是连续的或尽管是离散的但空间较大,这就需要很大的内存来存储状态动作对。为此提出组合神经网络,首先用自组织映射(SOM)神经网络对状态空间进... 标准的Sarsa(λ)算法对状态空间的要求是离散的且空间较小,而实际问题中很多系统的状态空间是连续的或尽管是离散的但空间较大,这就需要很大的内存来存储状态动作对。为此提出组合神经网络,首先用自组织映射(SOM)神经网络对状态空间进行自适应量化,然后在此基础上用BP网络拟合Q函数。该方法实现了Sarsa(λ)算法在连续和大规模状态空间的泛化。最后,实验结果表明了该方法的有效性。 展开更多
关键词 组合神经网络 强化学习 自组织映射 BP网络 Sarsa算法
下载PDF
激励学习的广义平均算法及其收敛性
8
作者 殷苌茗 陈焕文 谢丽娟 《计算机工程与应用》 CSCD 北大核心 2002年第20期72-74,88,共4页
一个激励学习Agent通过学习一个从状态到动作映射的最优策略来解决策问题。激励学习方法是Agent利用试验与环境交互以改进自身的行为。Markov决策过程(MDP)模型是解决激励学习问题的通用方法。文章提出了一种新的算法,这个算法通过牺牲... 一个激励学习Agent通过学习一个从状态到动作映射的最优策略来解决策问题。激励学习方法是Agent利用试验与环境交互以改进自身的行为。Markov决策过程(MDP)模型是解决激励学习问题的通用方法。文章提出了一种新的算法,这个算法通过牺牲最优性来获取鲁棒性,重点给出了一组逼近算法和它们的收敛结果。利用广义平均算子来替代最优算子max(或min),对激励学习中的两类最重要的算法一动态规划算法和个学习算法一进行了研究,并讨论了它们的收敛性。其目的就是为了提高激励学习算法的鲁棒性。 展开更多
关键词 激励学习 广义平均算法 收敛性 Markow决策过程 Q-学习 智能体 人工智能
下载PDF
基于动态规划方法的激励学习遗忘算法
9
作者 殷苌茗 王汉兴 陈焕文 《计算机工程与应用》 CSCD 北大核心 2004年第16期75-78,81,共5页
一个激励学习Agent通过学习一个从状态到动作映射的最优策略来解决策问题。激励学习方法是Agent利用试验与环境交互以改进自身的行为。Markov决策过程(MDP)模型是解决激励学习问题的通用方法,而动态规划方法是Agent在具有Markov环境下... 一个激励学习Agent通过学习一个从状态到动作映射的最优策略来解决策问题。激励学习方法是Agent利用试验与环境交互以改进自身的行为。Markov决策过程(MDP)模型是解决激励学习问题的通用方法,而动态规划方法是Agent在具有Markov环境下与策略相关的值函数学习算法。但由于Agent在学习的过程中,需要记忆全部的值函数,这个记忆容量随着状态空间的增加会变得非常巨大。文章提出了一种基于动态规划方法的激励学习遗忘算法,这个算法是通过将记忆心理学中有关遗忘的基本原理引入到值函数的激励学习中,导出了一类用动态规划方法解决激励学习问题的比较好的方法,即Forget-DP算法。 展开更多
关键词 激励学习 MARKOV决策过程 动态规划 值函数 记忆 遗忘算法
下载PDF
基于有效跟踪的平均渐进瞬时差分学习遗忘算法(英文)
10
作者 殷苌茗 王汉兴 +1 位作者 陈焕文 谢丽娟 《长沙电力学院学报(自然科学版)》 2003年第4期12-16,共5页
智能体通过学习最优决策来解决其决策问题.激励学习方法是智能体通过与其所处的环境交互来改进它自身的行为.Markov决策过程(MDP)模型是求解激励学习问题的一般框架,瞬时差分TD(λ)是在MDP模型下与策略相关的学习值函数的一种算法.一般... 智能体通过学习最优决策来解决其决策问题.激励学习方法是智能体通过与其所处的环境交互来改进它自身的行为.Markov决策过程(MDP)模型是求解激励学习问题的一般框架,瞬时差分TD(λ)是在MDP模型下与策略相关的学习值函数的一种算法.一般情况下,智能体必须记住其所有的值函数的值,当状态空间非常大时,这种记忆的量是大得惊人的.为了解决这个问题,给出了一种遗忘算法,这种算法把心理学的遗忘准则引入到了激励学习之中.利用遗忘算法,可以解决智能体在大状态空间中的激励学习问题. 展开更多
关键词 遗忘算法 激励学习 MARKOV决策过程 ATD(λ) 有效跟踪 平均渐进瞬时差分学习 心理学
下载PDF
电力企业基于Intranet/Web的分布式实时系统
11
作者 殷苌茗 李峰 《计算机系统应用》 2000年第4期18-18,共1页
本文讨论了电力系统的基于 Intranet/Web的分布式实时系统的网络结构,分析了实时系统的实时数据库的数据结构,给出了实时系统的数据库与MIS的合成技术,阐述了访问实时数据库的一般方法,最后对基于Intranet... 本文讨论了电力系统的基于 Intranet/Web的分布式实时系统的网络结构,分析了实时系统的实时数据库的数据结构,给出了实时系统的数据库与MIS的合成技术,阐述了访问实时数据库的一般方法,最后对基于Intranet/web的分布式实时系统的数据库与MIS的联接问题进行了探讨。 展开更多
关键词 电力企业 INTRANET网 WEB 分布式实时系统
下载PDF
IPv4的ARP与IPv6的邻居发现协议之比较
12
作者 殷苌茗 龚红仿 姜腊林 《长沙水电师院学报(自然科学版)》 2001年第1期23-26,共4页
从IPv4转向IPv6的原因众所周知 .在基于TCP/IP的网络中 ,地址解析 (以及逆向地址解析 )是一个十分重要的问题 .IPv4中使用了ARP和RARP两个协议来解决 .IPv6对于这个问题使用一种新的协议 ,即邻居发现协议 ,这些功能包括在ICMPv6中 ,其... 从IPv4转向IPv6的原因众所周知 .在基于TCP/IP的网络中 ,地址解析 (以及逆向地址解析 )是一个十分重要的问题 .IPv4中使用了ARP和RARP两个协议来解决 .IPv6对于这个问题使用一种新的协议 ,即邻居发现协议 ,这些功能包括在ICMPv6中 ,其中邻居宣告和邻居请求合在一起代替了IPv4中的ARP协议 .对于ARP和RARP已有了成熟的技术 ,而IPv6的邻居发现协议的开发与实现正在实验阶段 ,本文的目的是对IPv6的有关地址解析问题作一个探讨 ,并对它与IPv4的ARP和RARP在功能上技术上进行比较 ,以此可以通过ARP/RARP的技术特点 ,来指导将来从IPv4转向IPv6的有关技术问题 . 展开更多
关键词 领居发现协议 ARP 网络 地址解析
下载PDF
基于JDBC/Web的分布式实时数据库系统设计
13
作者 殷苌茗 龚红仿 陈焕文 《电脑开发与应用》 2001年第1期36-38,共3页
分布式实时数据库是工业现场监测与控制的主要数据源。讨论了实时数据库系统的结构和生成方法,并讨论了利用JDBC的强大功能,把实时数据库连接到Web的设计方案。最后给出了一个基于JDBC的分布式实时数据库系统设计的应用实例。
关键词 分布式实时数据库系统 JDBC WEB 系统设计
下载PDF
Delphi多线程在分布式实时多任务系统中的应用
14
作者 殷苌茗 李峰 陈焕文 《长沙水电师院学报(自然科学版)》 2000年第1期22-25,共4页
讨论了Delphi多线程的若干问题 ,对Delphi多线程的使用方法作了论述 ,同时对Delphi多线程在分布式实时多任务系统开发中的应用作了阐述 .最后对一个具体的基于Delphi多线程的分布式实时多任务系统的结构和功能进行了描述 .
关键词 多线程 分布式 实时多任务系统 DELPHI多线程
下载PDF
算子在混合型 Lebesgue 空间上的加权有界性及其插值
15
作者 殷苌茗 刘岚哲 《长沙水电师院学报(自然科学版)》 1997年第3期303-305,共3页
算子在混合型Lebesgue空间上的加权有界性及其插值殷苌茗刘岚吉吉(长沙电力学院长沙410077)(长沙电力学院长沙410077)(湖南大学长沙410082)设(Χi,di,μi)(i=1,2)为齐型空间(见文[1... 算子在混合型Lebesgue空间上的加权有界性及其插值殷苌茗刘岚吉吉(长沙电力学院长沙410077)(长沙电力学院长沙410077)(湖南大学长沙410082)设(Χi,di,μi)(i=1,2)为齐型空间(见文[1]),依[2]定义混合型加权Leb... 展开更多
关键词 算子 混合型 LEBESGUE空间 加权 有界性 插值
下载PDF
分布式实时多媒体数据库的研究与应用
16
作者 殷苌茗 龚红仿 《长沙水电师院学报(自然科学版)》 2001年第2期26-29,共4页
讨论了多媒体数据库的结构 ,对多媒体数据库的实时传输与分布式特性问题分别进行了研究 ,并具体给出了 1个实际的应用实例 .
关键词 分布式实时多媒体数据库 分布式特性 实时特性 客户/服务器模型
下载PDF
基于JDBC/Web的分布式实时数据库系统设计
17
作者 殷苌茗 陈焕文 《长沙水电师院学报(自然科学版)》 2000年第3期19-22,共4页
讨论了实时数据库系统的结构 ,生成方法和利用JDBC的强大功能把实时数据库联接到Web的设计方案 .最后给出了一个基于JDBC的分布式实时数据库系统设计的应用实例 .
关键词 分布式 JDBC 实时数据库
下载PDF
KGS格点系统的全局吸引子 被引量:7
18
作者 尹福其 周盛凡 +1 位作者 殷苌茗 肖翠辉 《应用数学和力学》 CSCD 北大核心 2007年第5期619-630,共12页
考虑了对应于Klein-Gordon-Schrdinger方程的格点系统(KGS格点系统)的解的长时间行为.首先通过引入一个加权范数与采用解的“切尾”法,证明了全局吸引子的存在性.在此基础上,采用元素分解法与多面体的球覆盖性质,得到了此吸引子的Kolmog... 考虑了对应于Klein-Gordon-Schrdinger方程的格点系统(KGS格点系统)的解的长时间行为.首先通过引入一个加权范数与采用解的“切尾”法,证明了全局吸引子的存在性.在此基础上,采用元素分解法与多面体的球覆盖性质,得到了此吸引子的Kolmogorov δ-熵的上界的一个估计.最后,我们用有限维的常微分方程的全局吸引子逼近它. 展开更多
关键词 吸引子 格点动力系统 覆盖性质 元素分解 逼近
下载PDF
U-Clustering:基于效用聚类的激励学习算法
19
作者 陈焕文 殷苌茗 谢丽娟 《计算机工程与应用》 CSCD 北大核心 2005年第26期37-42,74,共7页
提出了一个新的效用聚类激励学习算法U-Clustering。该算法完全不用像U-Tree算法那样进行边缘节点的生成和测试,它首先根据实例链的观测动作值对实例进行聚类,然后对每个聚类进行特征选择,最后再进行特征压缩,经过压缩后的新特征就成为... 提出了一个新的效用聚类激励学习算法U-Clustering。该算法完全不用像U-Tree算法那样进行边缘节点的生成和测试,它首先根据实例链的观测动作值对实例进行聚类,然后对每个聚类进行特征选择,最后再进行特征压缩,经过压缩后的新特征就成为新的状态空间树节点。通过对NewYorkDriving[2,13]的仿真和算法的实验分析,表明U-Clustering算法对解决大型部分可观测环境问题是比较有效的算法。 展开更多
关键词 激励学习 效用聚类 部分可观测Markov决策过程
下载PDF
融合HSV空间与形态学的救生衣图像分割 被引量:5
20
作者 谭晓波 殷苌茗 周书仁 《计算机应用与软件》 CSCD 2016年第1期198-202,共5页
针对轮船渡口拍摄图像背景复杂、噪声大、模糊的特点,提出一种融合HSV颜色空间信息和数学形态学处理的图像分割方法,并进行背景差分提取前景,消除错误的背景分割。首先提取目标物体的HSV颜色特征值,然后利用得到的特征值标记ROI区域,对... 针对轮船渡口拍摄图像背景复杂、噪声大、模糊的特点,提出一种融合HSV颜色空间信息和数学形态学处理的图像分割方法,并进行背景差分提取前景,消除错误的背景分割。首先提取目标物体的HSV颜色特征值,然后利用得到的特征值标记ROI区域,对该含有标记信息的二值图像进行数学形态学处理得到连通区域图,通过连通区域外轮廓找出最外矩形边界,最后利用背景差分消除背景干扰。将该方法应用于轮渡安全中救生衣的检测,实验结果表明,能快速有效地实现救生衣图像分割,并对分割区域进行计数。 展开更多
关键词 HSV颜色空间 数学形态学 背景差分 图像分割 特征提取 ROI区域
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部