期刊文献+
共找到359篇文章
< 1 2 18 >
每页显示 20 50 100
Day-ahead scheduling based on reinforcement learning with hybrid action space
1
作者 CAO Jingyu DONG Lu SUN Changyin 《Journal of Systems Engineering and Electronics》 SCIE EI CSCD 2022年第3期693-705,共13页
Driven by the improvement of the smart grid,the active distribution network(ADN)has attracted much attention due to its characteristic of active management.By making full use of electricity price signals for optimal s... Driven by the improvement of the smart grid,the active distribution network(ADN)has attracted much attention due to its characteristic of active management.By making full use of electricity price signals for optimal scheduling,the total cost of the ADN can be reduced.However,the optimal dayahead scheduling problem is challenging since the future electricity price is unknown.Moreover,in ADN,some schedulable variables are continuous while some schedulable variables are discrete,which increases the difficulty of determining the optimal scheduling scheme.In this paper,the day-ahead scheduling problem of the ADN is formulated as a Markov decision process(MDP)with continuous-discrete hybrid action space.Then,an algorithm based on multi-agent hybrid reinforcement learning(HRL)is proposed to obtain the optimal scheduling scheme.The proposed algorithm adopts the structure of centralized training and decentralized execution,and different methods are applied to determine the selection policy of continuous scheduling variables and discrete scheduling variables.The simulation experiment results demonstrate the effectiveness of the algorithm. 展开更多
关键词 day-ahead scheduling active distribution network(ADN) reinforcement learning hybrid action space
下载PDF
Mixed Deep Reinforcement Learning Considering Discrete-continuous Hybrid Action Space for Smart Home Energy Management 被引量:3
2
作者 Chao Huang Hongcai Zhang +2 位作者 Long Wang Xiong Luo Yonghua Song 《Journal of Modern Power Systems and Clean Energy》 SCIE EI CSCD 2022年第3期743-754,共12页
This paper develops deep reinforcement learning(DRL)algorithms for optimizing the operation of home energy system which consists of photovoltaic(PV)panels,battery energy storage system,and household appliances.Model-f... This paper develops deep reinforcement learning(DRL)algorithms for optimizing the operation of home energy system which consists of photovoltaic(PV)panels,battery energy storage system,and household appliances.Model-free DRL algorithms can efficiently handle the difficulty of energy system modeling and uncertainty of PV generation.However,discretecontinuous hybrid action space of the considered home energy system challenges existing DRL algorithms for either discrete actions or continuous actions.Thus,a mixed deep reinforcement learning(MDRL)algorithm is proposed,which integrates deep Q-learning(DQL)algorithm and deep deterministic policy gradient(DDPG)algorithm.The DQL algorithm deals with discrete actions,while the DDPG algorithm handles continuous actions.The MDRL algorithm learns optimal strategy by trialand-error interactions with the environment.However,unsafe actions,which violate system constraints,can give rise to great cost.To handle such problem,a safe-MDRL algorithm is further proposed.Simulation studies demonstrate that the proposed MDRL algorithm can efficiently handle the challenge from discrete-continuous hybrid action space for home energy management.The proposed MDRL algorithm reduces the operation cost while maintaining the human thermal comfort by comparing with benchmark algorithms on the test dataset.Moreover,the safe-MDRL algorithm greatly reduces the loss of thermal comfort in the learning stage by the proposed MDRL algorithm. 展开更多
关键词 Demand response deep reinforcement learning discrete-continuous action space home energy management safe reinforcement learning
原文传递
潜在空间中的策略搜索强化学习方法
3
作者 赵婷婷 王莹 +3 位作者 孙威 陈亚瑞 王嫄 杨巨成 《计算机科学与探索》 CSCD 北大核心 2024年第4期1032-1046,共15页
策略搜索是深度强化学习领域中一种能够解决大规模连续状态空间和动作空间问题的高效学习方法,被广泛应用在现实问题中。然而,此类方法通常需要花费大量的学习样本和训练时间,且泛化能力较差,学到的策略模型难以泛化至环境中看似微小的... 策略搜索是深度强化学习领域中一种能够解决大规模连续状态空间和动作空间问题的高效学习方法,被广泛应用在现实问题中。然而,此类方法通常需要花费大量的学习样本和训练时间,且泛化能力较差,学到的策略模型难以泛化至环境中看似微小的变化。为了解决上述问题,提出了一种基于潜在空间的策略搜索强化学习方法。将学习状态表示的思想拓展到动作表示上,即在动作表示的潜在空间中学习策略,再将动作表示映射到真实动作空间中。通过表示学习模型的引入,摒弃端到端的训练方式,将整个强化学习任务划分成大规模的表示模型部分和小规模的策略模型部分,使用无监督的学习方法来学习表示模型,使用策略搜索强化学习方法学习小规模的策略模型。大规模的表示模型能保留应有的泛化性和表达能力,小规模的策略模型有助于减轻策略学习的负担,从而在一定程度上缓解深度强化学习领域中样本利用率低、学习效率低和动作选择泛化性弱的问题。最后,在智能控制任务CarRacing和Cheetah中验证了引入潜在空间中的状态表示和动作表示的有效性。 展开更多
关键词 无模型强化学习 策略模型 状态表示 动作表示 连续动作空间 策略搜索强化学习方法
下载PDF
Action Origin of the Cosmos
4
作者 Hans Joachim Dudek 《Journal of High Energy Physics, Gravitation and Cosmology》 2023年第3期850-887,共38页
In physical information theory elementary objects are represented as correlation structures with oscillator properties and characterized by action. The procedure makes it possible to describe the photons of positive a... In physical information theory elementary objects are represented as correlation structures with oscillator properties and characterized by action. The procedure makes it possible to describe the photons of positive and negative charges by positive and negative real action;gravitons are represented in equal amounts by positive and negative real, i.e., virtual action, and the components of the vacuum are characterized by deactivated virtual action. An analysis of the currents in the correlation structures of photons of static Maxwell fields with wave and particle properties, of the Maxwell vacuum and of the gravitons leads to a uniform three-dimensional representation of the structure of the action. Based on these results, a basic structure consisting of a system of oscillators is proposed, which describe the properties of charges and masses and interact with the photons of static Maxwell fields and with gravitons. All properties of the elemental components of nature can thus be traced back to a basic structure of action. It follows that nature can be derived from a uniform structure and this structure of action must therefore also be the basis of the origin of the cosmos. 展开更多
关键词 Hamilton Principle as Global Law in Physics Physical Information Generated by action Correlation space Charge- and Matter-Oscillators
下载PDF
基于混合强化学习的主动配电网故障恢复方法
5
作者 徐岩 陈嘉岳 马天祥 《电力系统及其自动化学报》 CSCD 北大核心 2024年第4期50-58,共9页
针对高比例新能源接入的配电网故障恢复问题,提出一种基于混合强化学习的主动配电网故障恢复方法。首先,以故障损失最小为恢复目标、配电网安全运行要求为约束条件,构造主动配电网的故障恢复模型;其次,建立用于故障恢复的强化学习环境,... 针对高比例新能源接入的配电网故障恢复问题,提出一种基于混合强化学习的主动配电网故障恢复方法。首先,以故障损失最小为恢复目标、配电网安全运行要求为约束条件,构造主动配电网的故障恢复模型;其次,建立用于故障恢复的强化学习环境,根据状态空间和动作空间特点,提出一种混合强化学习方法,该方法使用竞争架构双深度Q网络算法处理离散动作空间,进行开关动作;然后,使用深度确定性策略梯度算法处理连续动作空间,调节电源出力;最后,通过IEEE33节点系统仿真实验验证所提方法的可行性和优越性。 展开更多
关键词 主动配电网 故障恢复 混合强化学习 状态空间 动作空间
下载PDF
“行动-规则-空间”视角下人文经济学理论与实践思考
6
作者 段进军 《苏州大学学报(哲学社会科学版)》 CSSCI 北大核心 2024年第3期9-18,共10页
西方主流经济学理论对人类社会发展做出了巨大贡献,但今天面临着越来越大的挑战,这是因为它的基本“理性人”假设导致其理论体系越来越缺少人的概念。我们需要将“理性人”假设转变到“行动人”的假设,从“行动—规则—空间”三维视角... 西方主流经济学理论对人类社会发展做出了巨大贡献,但今天面临着越来越大的挑战,这是因为它的基本“理性人”假设导致其理论体系越来越缺少人的概念。我们需要将“理性人”假设转变到“行动人”的假设,从“行动—规则—空间”三维视角去思考未来经济学和人文经济学的发展。首先,从“理性人”转到真实的“行动人”,赋予了人文经济学以主体概念;没有真实的行动主体,就难以推进高质量发展,也难以形成一个动态的理论体系。其次,行动人有自己的目的和手段,要实现自己的目的就必须建立与其他行动人之间的协调问题,而这种协调要通过一般性规则来实现,一般性规则又产生于大量微观个体之间的长期博弈,这赋予了人文经济学以规则内涵。最后,要赋予人文经济学以空间维度,这是个体行动和行动协调的必然逻辑和实践推演;不同空间的经济秩序和文化生态生成于个体行动和行动的协调,其一旦形成又会对空间中个体行动和行动协调产生深刻的影响。总之,从“行动—规则—空间”三维视角去思考人文经济学的发展,可以揭示人文经济学的科学内涵,推动新时代中国的高质量发展。 展开更多
关键词 行动 规则 空间 人文经济学 高质量发展
下载PDF
Sim-to-Real: A Performance Comparison of PPO, TD3, and SAC Reinforcement Learning Algorithms for Quadruped Walking Gait Generation
7
作者 James W. Mock Suresh S. Muknahallipatna 《Journal of Intelligent Learning Systems and Applications》 2024年第2期23-43,共21页
The performance of the state-of-the-art Deep Reinforcement algorithms such as Proximal Policy Optimization, Twin Delayed Deep Deterministic Policy Gradient, and Soft Actor-Critic for generating a quadruped walking gai... The performance of the state-of-the-art Deep Reinforcement algorithms such as Proximal Policy Optimization, Twin Delayed Deep Deterministic Policy Gradient, and Soft Actor-Critic for generating a quadruped walking gait in a virtual environment was presented in previous research work titled “A Comparison of PPO, TD3, and SAC Reinforcement Algorithms for Quadruped Walking Gait Generation”. We demonstrated that the Soft Actor-Critic Reinforcement algorithm had the best performance generating the walking gait for a quadruped in certain instances of sensor configurations in the virtual environment. In this work, we present the performance analysis of the state-of-the-art Deep Reinforcement algorithms above for quadruped walking gait generation in a physical environment. The performance is determined in the physical environment by transfer learning augmented by real-time reinforcement learning for gait generation on a physical quadruped. The performance is analyzed on a quadruped equipped with a range of sensors such as position tracking using a stereo camera, contact sensing of each of the robot legs through force resistive sensors, and proprioceptive information of the robot body and legs using nine inertial measurement units. The performance comparison is presented using the metrics associated with the walking gait: average forward velocity (m/s), average forward velocity variance, average lateral velocity (m/s), average lateral velocity variance, and quaternion root mean square deviation. The strengths and weaknesses of each algorithm for the given task on the physical quadruped are discussed. 展开更多
关键词 Reinforcement Learning Reality Gap Position Tracking action spaces Domain Randomization
下载PDF
徽州民居建筑空间的性能属性识别及其作用机制
8
作者 成辉 蒋文婷 +2 位作者 张正伟 李欣 刘加平 《世界建筑》 2024年第10期100-105,共6页
在绿色建筑由技术主导向技术与设计并重转变的行业需求下,研究追溯了建筑空间应答外界气候与调控室内环境的性质与能力。本文聚焦徽州民居,采取定性分析方法识别建筑空间及其性能属性,揭示其作用机制;采取定量模拟方法验证空间性能属性... 在绿色建筑由技术主导向技术与设计并重转变的行业需求下,研究追溯了建筑空间应答外界气候与调控室内环境的性质与能力。本文聚焦徽州民居,采取定性分析方法识别建筑空间及其性能属性,揭示其作用机制;采取定量模拟方法验证空间性能属性的有效性。上述研究论证了空间具备性能属性,为从空间角度进行绿色设计提供理论依据与方法支持。 展开更多
关键词 徽州民居 建筑空间 性能属性 作用机制
下载PDF
基于贝叶斯网络强化学习的复杂装备维修排故策略生成
9
作者 刘宝鼎 于劲松 +2 位作者 韩丹阳 唐荻音 李鑫 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2024年第4期1354-1364,共11页
为解决传统启发式维修排故决策方法决策时间长、生成策略总成本高的问题,提出一种基于贝叶斯网络(BN)结合强化学习(RL)进行复杂装备维修排故策略生成方法。为更好地利用复杂装备模型知识,使用BN进行维修排故知识表述,并且为更加贴近复... 为解决传统启发式维修排故决策方法决策时间长、生成策略总成本高的问题,提出一种基于贝叶斯网络(BN)结合强化学习(RL)进行复杂装备维修排故策略生成方法。为更好地利用复杂装备模型知识,使用BN进行维修排故知识表述,并且为更加贴近复杂装备实际情况,依据故障模式、影响和危害性分析(FMECA)的故障概率,经合理转化后作为BN的先验概率;为使用RL的决策过程生成维修排故策略,提出一种维修排故决策问题转化为RL问题的方法;为更好地求解转化得到的强化学习问题,引入观测-修复动作对(O-A)以减小问题规模,并设置动作掩码处理动态动作空间。仿真结果表明:在统一的性能指标下,所提BN-RL方法较传统方法获得更高的指标值,证明该方法的有效性和优越性。 展开更多
关键词 强化学习 贝叶斯网络 维修排故策略生成 复杂装备 动态动作空间
原文传递
新乡贤参与乡村生态治理的空间行动逻辑——基于安徽省H村生态治理实践分析
10
作者 李航 丁伯纯 《黑龙江生态工程职业学院学报》 2024年第3期68-72,96,共6页
乡村生态空间治理依靠传统的线性治理模式存在乡村生态治理空间失语和治理失灵等问题。以H村皖河生态治理为研究切入点,在空间视角下以空间正义—空间分化—空间治理为研究分析框架,剖析乡村生态治理存在的正式权力空间治理“独奏”、... 乡村生态空间治理依靠传统的线性治理模式存在乡村生态治理空间失语和治理失灵等问题。以H村皖河生态治理为研究切入点,在空间视角下以空间正义—空间分化—空间治理为研究分析框架,剖析乡村生态治理存在的正式权力空间治理“独奏”、空间正义离散、空间分化现象的成因及对乡村生态空间治理带来的负面影响,探讨新乡贤参与乡村生态治理的空间行动逻辑。通过调动和挖掘乡村内生力量——新乡贤的作用来重构乡村社会空间,利用乡村社会空间中存在的多重利益结构促使正式权力对非正式权力进行赋权,重塑乡村社会空间权力秩序,提高乡村内生力量参与乡村生态治理的积极性;利用新乡贤的乡土文化与公共身份特性修复乡村社会空间分化、空间正义离散、空间治理紊乱问题,为实现乡村振兴目标提供实践和理论参考。 展开更多
关键词 乡村生态空间治理 新乡贤 空间行动逻辑
下载PDF
基于轨迹预测的安全强化学习自动变道决策方法
11
作者 肖海林 黄天义 +2 位作者 代秋香 张跃军 张中山 《计算机应用》 CSCD 北大核心 2024年第9期2958-2963,共6页
深度强化学习在自动变道决策问题中由于它的试错学习的特性,易在训练过程中导致不安全的行为。为此,提出一种基于轨迹预测的安全强化学习自动变道决策方法。首先,通过最大似然估计的概率建模并预测车辆的未来行驶轨迹;其次,利用得到的... 深度强化学习在自动变道决策问题中由于它的试错学习的特性,易在训练过程中导致不安全的行为。为此,提出一种基于轨迹预测的安全强化学习自动变道决策方法。首先,通过最大似然估计的概率建模并预测车辆的未来行驶轨迹;其次,利用得到的预测轨迹和安全距离指标进行驾驶风险评估,并且根据驾驶风险评估结果进行安全动作约束,将动作空间裁剪为安全动作空间,指导智能车辆避免危险动作。在仿真平台的高速公路场景中,将所提方法与深度Q网络(DQN)及其改进方法进行测试比较。实验结果表明,在智能车辆训练过程中,所提方法在保证快速收敛的同时,使碰撞发生的次数相较于对比方法降低了47%~57%,有效提高了训练过程中的安全性。 展开更多
关键词 安全强化学习 自动变道决策 轨迹预测 风险评估 动作空间裁剪
下载PDF
导弹发射车抗毁伤能力分析与评估技术研究综述
12
作者 高钦和 黄通 +3 位作者 钱秉文 沈飞 王冬 高蕾 《国防科技大学学报》 EI CAS CSCD 北大核心 2024年第2期182-196,共15页
现代战争日趋透明给导弹发射车战场生存带来了严峻挑战。围绕发射车的抗毁伤能力分析和评估技术,分析了发射车面临的毁伤威胁和毁伤作用机理,从抗毁伤能力评估应用的角度阐述了冲击波、动能、热和电磁四种毁伤类型的研究现状,提出了不... 现代战争日趋透明给导弹发射车战场生存带来了严峻挑战。围绕发射车的抗毁伤能力分析和评估技术,分析了发射车面临的毁伤威胁和毁伤作用机理,从抗毁伤能力评估应用的角度阐述了冲击波、动能、热和电磁四种毁伤类型的研究现状,提出了不同毁伤类型在抗毁伤能力分析和评估中的应用方向;基于易损性分析空间理论,总结了装备易损性分析的发展历程,认为从物理空间到性能空间的逻辑传递关系是现阶段发射车易损性分析的核心所在,并从物理判据、性能判据和分级标准介绍了易损性判据的研究动态,提出了发射车易损性判据的关键;明确阐述了发射车抗毁伤能力的研究概念和分析方法面临的主要问题,研究结论可以为导弹发射车抗毁伤能力分析和评估相关研究提供参考。 展开更多
关键词 毁伤威胁 作用机理 易损性分析空间 抗毁伤能力
下载PDF
一种面向宽带跳频双动作的智能抗干扰决策算法
13
作者 夏重阳 吴晓富 靳越 《电讯技术》 北大核心 2024年第9期1467-1473,共7页
宽带跳频与深度强化学习结合的智能跳频通信模式能有效提高通信抗干扰能力。针对同时调整信号频点和功率的双动作空间智能决策由于频点离散但功率非离散使得决策依赖的深度强化学习算法难以设计的问题,基于离散型深度确定性策略梯度算法... 宽带跳频与深度强化学习结合的智能跳频通信模式能有效提高通信抗干扰能力。针对同时调整信号频点和功率的双动作空间智能决策由于频点离散但功率非离散使得决策依赖的深度强化学习算法难以设计的问题,基于离散型深度确定性策略梯度算法(Wolpertinger Deep Deterministic Policy Gradient,W-DDPG),提出了一种适于宽带跳频通信且具有发射频率和功率组成的双动作空间智能抗干扰决策方法。该决策方法面向频率/功率双动作空间,在频率空间中使用Wolpertinger架构处理频率动作,并与功率动作组成联合动作,然后使用DDPG算法进行训练,使该算法能够适用于宽带跳频双动作空间的抗干扰场景,在复杂的电磁环境下能够快速作出决策。仿真结果表明,该方法在宽带跳频双动作空间干扰模式下的收敛速度及抗干扰性能较传统抗干扰算法提升了大约25%。 展开更多
关键词 通信抗干扰 深度强化学习 双动作空间 智能决策
下载PDF
城乡融合视角下社会工作参与乡村振兴的行为意义和行动空间
14
作者 刘燕 王小平 《社会工作与管理》 2024年第5期47-54,共8页
城乡融合视角为持续推进社会工作参与乡村振兴提供了理论依据。融合指向人与自然的共鸣、城市与乡村空间形态的保留及文化的连续性。社会工作参与乡村振兴有助于发展村民的自主式参与,发掘地方文化的动员能力,推动城市居民下乡并参与劳... 城乡融合视角为持续推进社会工作参与乡村振兴提供了理论依据。融合指向人与自然的共鸣、城市与乡村空间形态的保留及文化的连续性。社会工作参与乡村振兴有助于发展村民的自主式参与,发掘地方文化的动员能力,推动城市居民下乡并参与劳动和生产。基于此,社会工作需通过调研,全面了解乡村发展基础,重视乡村场景和乡村价值的重塑,依托乡镇社会工作站,链接资源并拓展乡村发展场域。这将进一步推动乡村振兴议题的社会工作研究进路,提高社会工作参与实践的有效性。 展开更多
关键词 城乡融合 社会工作 乡村振兴 行动空间
下载PDF
群作用下逆极限空间的G-平均跟踪性和G-链传递
15
作者 冀占江 陈占和 刘海林 《广西大学学报(自然科学版)》 CAS 北大核心 2024年第1期198-203,共6页
为了研究群作用下逆极限空间的G-平均跟踪性和G-链传递的动力学性质,利用原空间和逆极限空间之间的关系,得到以下结果:自映射f具有G-平均跟踪性与移位映射σ具有G-平均跟踪性是等价条件;自映射f是G-链传递与移位映射σ是G-链传递是等价... 为了研究群作用下逆极限空间的G-平均跟踪性和G-链传递的动力学性质,利用原空间和逆极限空间之间的关系,得到以下结果:自映射f具有G-平均跟踪性与移位映射σ具有G-平均跟踪性是等价条件;自映射f是G-链传递与移位映射σ是G-链传递是等价条件。 展开更多
关键词 群作用 逆极限空间 G-平均跟踪性 G-链传递
下载PDF
集体行动逻辑视角下乡村“零和空间”治理——基于福建晋江市的田野调查
16
作者 陈颖 刘飞翔 《云南农业大学学报(社会科学版)》 CAS 2024年第1期102-108,共7页
乡村公共空间治理是人居环境整治的关键任务,也是实现乡村振兴的重要抓手。公共空间治理难,主要在于“零和空间”引发的集体行动困境。研究发现福建晋江市乡村通过宗族力量引导村民认知目标、网格化管理降低集体行动规模、研究村民偏好... 乡村公共空间治理是人居环境整治的关键任务,也是实现乡村振兴的重要抓手。公共空间治理难,主要在于“零和空间”引发的集体行动困境。研究发现福建晋江市乡村通过宗族力量引导村民认知目标、网格化管理降低集体行动规模、研究村民偏好进行选择性激励三种方式,促进乡村达成集体行动目标,使“零和空间”演变为“正和空间”。晋江市农村“零和空间”整治的经验,不仅为其他乡村进行类似公共空间治理提供借鉴,也为今后乡村基层治理通过制度设计,形成长效机制促进集体行动目标达成提供有益启示。 展开更多
关键词 零和空间 集体行动 选择性激励 田野调查
下载PDF
智能垃圾分类拾捡机器人抓取角度自动控制研究
17
作者 李绘英 《太原学院学报(自然科学版)》 2024年第3期34-40,共7页
角度偏离程度过大会导致机器人抓取行为出现偏差,从而使机器人错误抓取拾捡目标。为解决上述问题,针对智能垃圾分类拾捡机器人抓取角度自动控制展开研究。根据模糊pid控制原则,完成对机器人抓取参数的整定处理,再定义抓取行为动作空间,... 角度偏离程度过大会导致机器人抓取行为出现偏差,从而使机器人错误抓取拾捡目标。为解决上述问题,针对智能垃圾分类拾捡机器人抓取角度自动控制展开研究。根据模糊pid控制原则,完成对机器人抓取参数的整定处理,再定义抓取行为动作空间,通过建模抓取过程的方式,确定抓取角度的取值范围,并在此基础上,推导具体的抓取角度控制条件,实现智能垃圾分类机器人抓取角度自动控制。实验结果表明,上述方法的应用,可将抓取角度控制在0°~25°的数值范围之内,不会因角度偏离程度过大而造成机器人偏差抓取的问题,能够保障机器人对拾捡目标的精准抓取。 展开更多
关键词 模糊PID 垃圾分类拾捡机器人 抓取角度 参数整定 行为动作空间 过程建模
下载PDF
混合动作空间下的多设备边缘计算卸载方法
18
作者 张冀 齐国梁 +1 位作者 朵春红 龚雯雯 《计算机工程与应用》 CSCD 北大核心 2024年第10期301-310,共10页
为降低多设备多边缘服务器场景中设备层级的总成本,并解决现有深度强化学习(deep reinforcement learning,DRL)只支持单一动作空间的算法局限性,提出基于混合决策的多智能体深度确定性策略梯度方法(hybrid-based multi-agent deep deter... 为降低多设备多边缘服务器场景中设备层级的总成本,并解决现有深度强化学习(deep reinforcement learning,DRL)只支持单一动作空间的算法局限性,提出基于混合决策的多智能体深度确定性策略梯度方法(hybrid-based multi-agent deep determination policy gradient,H-MADDPG)。首先考虑物联网设备/服务器计算能力随负载的动态变化、时变的无线传输信道增益、能量收集的未知性、任务量不确定性多种复杂的环境条件,建立MEC系统模型;其次以一段连续时隙内综合时延、能耗的总成本最小作为优化目标建立问题模型;最后将问题以马尔科夫决策过程(Markov decision procession,MDP)的形式交付给H-MADDPG,在价值网络的辅助下训练并行的两个策略网络,为设备输出离散的服务器选择及连续的任务卸载率。实验结果表明,H-MADDPG方法具有良好的收敛性和稳定性,从计算任务是否密集、延迟是否敏感等不同角度进行观察,H-MADDPG系统整体回报优于Local、OffLoad和DDPG,在计算密集型的任务需求下也能保持更大的系统吞吐量。 展开更多
关键词 物联网(IoT) 边缘计算卸载 多智能体深度确定性策略梯度(MADDPG) 混合动作空间
下载PDF
对“空间生产”理论的关注及其社会功能的再考察
19
作者 常宝 李成龙 《内蒙古师范大学学报(哲学社会科学版)》 2024年第1期33-39,共7页
通过对现有文献的梳理和回顾,根据不同学者对空间生产及其内涵的理解,以及由此形成的研究取向的差异,将相关研究归纳为两种逻辑类型,一是空间表征框架下的空间生产研究,二是表征空间框架下的空间生产研究。这两种类型涵盖了当前“空间... 通过对现有文献的梳理和回顾,根据不同学者对空间生产及其内涵的理解,以及由此形成的研究取向的差异,将相关研究归纳为两种逻辑类型,一是空间表征框架下的空间生产研究,二是表征空间框架下的空间生产研究。这两种类型涵盖了当前“空间生产”研究的基本领域,但现有研究还处于理论应用阶段。通过对空间生产理论要素深入挖掘和阐释,可为空间治理研究提供理论资源和视角。 展开更多
关键词 空间生产 治理逻辑 行动逻辑 空间治理
下载PDF
基于DDQN改进方法的“斗地主”策略
20
作者 孔燕 吴晓聪 +1 位作者 芮烨锋 史鸿远 《信息技术》 2024年第5期66-72,80,共8页
基于当前一些已有方法在牌类博弈中训练时间长、动作空间大、胜率低等问题,提出了针对DDQN算法网络架构、编码方式的改进方法。采用二进制对手牌特征进行编码,采用手牌拆分的方法把神经网络分为主牌神经网络和副牌神经网络,并且增加GRU... 基于当前一些已有方法在牌类博弈中训练时间长、动作空间大、胜率低等问题,提出了针对DDQN算法网络架构、编码方式的改进方法。采用二进制对手牌特征进行编码,采用手牌拆分的方法把神经网络分为主牌神经网络和副牌神经网络,并且增加GRU神经网络处理序列动作。经实验表明,该算法训练时间比传统DQN算法缩短了13%,在“地主”和“农民”位置上的平均胜率为70%和75%,高于DQN算法的28%和60%,证明了改进算法在上述部分指标方面的优势。 展开更多
关键词 深度强化学习 Double deep Q-learning 计算机博弈 Gate Recurrent Unit神经网络 大规模离散动作空间
下载PDF
上一页 1 2 18 下一页 到第
使用帮助 返回顶部