期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
基于Nash-Stackelberg分层博弈模型的路网交通控制强化学习算法 被引量:2
1
作者 张尊栋 王岩楠 +2 位作者 刘雨珂 刘小明 尚春琳 《东南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2023年第2期334-341,共8页
为了解决多交叉口博弈引发的Nash均衡计算复杂度问题,考虑路网中不同交叉口的重要程度和博弈关系,兼顾路网中子区之间及子区内部的交通控制策略,以2个子区内的重要交叉口作为上层博弈主体,次要交叉口作为下层博弈主体,构建了一种Nash-St... 为了解决多交叉口博弈引发的Nash均衡计算复杂度问题,考虑路网中不同交叉口的重要程度和博弈关系,兼顾路网中子区之间及子区内部的交通控制策略,以2个子区内的重要交叉口作为上层博弈主体,次要交叉口作为下层博弈主体,构建了一种Nash-Stackelberg分层博弈(NSHG)模型.然后,提出2种多Agent强化学习算法,即基于NSHG的Q学习(NSHG-QL)算法和基于NSHG的深度Q网络(NSHG-DQN)算法.在实验中,使用NSHG-QL和NSHG-DQN算法在SUMO仿真软件搭建的路网环境中对信号灯进行控制,并与基础博弈模型求解算法进行比较.实验结果表明:NSHG-QL算法和NSHG-DQN算法减少了交叉口内车辆的平均旅行时间和平均时间损失,提高了平均速度;NSHG模型在满足重要交叉口间上层博弈的基础上协调次要交叉口,做出最优策略选择,而且基于分层博弈模型的多Agent强化学习算法能明显提高学习性能和收敛性. 展开更多
关键词 计算复杂度 交通控制策略 分层博弈模型 多AGENT强化学习 最优策略
下载PDF
Q学习演化博弈中决策机制对网络合作水平的影响
2
作者 张尊栋 王岩楠 +1 位作者 周慧娟 张艺帆 《计算机工程》 CAS CSCD 北大核心 2023年第6期99-106,114,共9页
针对博弈决策过程中个体无法获取邻居收益的问题,基于Q学习自我经验学习的特性,提出Q学习演化博弈模型。考虑到不同Q学习决策机制会对网络合作水平产生不同的影响,采用ε-greedy决策机制、Boltzmann决策机制和Max-plus决策机制,针对不... 针对博弈决策过程中个体无法获取邻居收益的问题,基于Q学习自我经验学习的特性,提出Q学习演化博弈模型。考虑到不同Q学习决策机制会对网络合作水平产生不同的影响,采用ε-greedy决策机制、Boltzmann决策机制和Max-plus决策机制,针对不同的网络类型、不同的博弈模型参数和不同的强化学习参数进行对比实验,量化分析决策机制对网络合作水平的影响。实验结果表明:与传统的演化博弈模型相比,Q学习演化博弈模型能够普遍提高网络的合作水平,并且不同的Q学习决策机制会对网络合作水平产生不同的影响,使用ε-greedy决策机制的模型合作水平比另两种模型高约35%和37%;较低的学习率、较高的折扣率以及适中的收益均匀性能够促进网络中个体间的合作,使用ε-greedy决策机制的模型合作水平比在较高学习率和较低折扣率下的合作水平分别高约40%和45%;在较高的探索率下,引入考虑个体全局属性的Max-plus决策机制的网络平均收益比引入另两种决策机制的Q学习模型高约22%和17%。 展开更多
关键词 Q学习 决策机制 网络演化博弈 合作水平 折扣率
下载PDF
新政策下的小学劳动教育研究
3
作者 王岩楠 吴婷 《新一代(理论版)》 2021年第22期257-258,共2页
随着新政策的落地,学校教育内容也面临转型,劳动教育的重要性得以突显。当前,中小学劳动教育受制于师资、场所等,得不到全面而深入的开展。此外,在一些中小学,劳动教育存在被泛化和“娱乐化”的倾向,其育人功能没有发挥出来,反而加重了... 随着新政策的落地,学校教育内容也面临转型,劳动教育的重要性得以突显。当前,中小学劳动教育受制于师资、场所等,得不到全面而深入的开展。此外,在一些中小学,劳动教育存在被泛化和“娱乐化”的倾向,其育人功能没有发挥出来,反而加重了师生的负担。新政策背景下,劳动教育的重要性与其开展得不够充分的实际情况之间形成了巨大的张力,促使我们进一步探讨劳动教育改革的必要性。本文基于对Y小学劳动教育实践的分析,认为在新政策下的劳动教育要发挥学生的主体性,加强家庭、学校和社会的合作,培养学生正确的劳动价值观。 展开更多
关键词 劳动教育 劳动价值观
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部