_科创中国

基于深度强化学习的舰载机保障作业人员调度方法

成果类型：: 发明专利

发布时间: 2023-09-14 16:40:40

科技成果产业化落地方案

方案提交机构：成果发布人| 熊鹏 | 2023-09-14 16:40:40

成果简介技术亮点应用前景团队概括产生的效益转化方式

本发明公开了一种基于深度强化学习的舰载机保障作业人员调度方法，包括以下步骤：构建舰载机保障过程的马尔可夫决策过程(Markov Decision Process,MDP)模型，作为智能体训练环境；根据保障作业流程，确定智能体及其观测空间与动作空间；随后设计奖励函数、经验抽取机制和终止条件，并基于此设计网络结构；通过设置主要参数初始化环境，并采用多智能体深度确定策略梯度算法(Multi Agent Deep Deterministic Policy Gradient,MADDPG)训练智能体；最终使用完成训练智能体的决策辅助指挥人员进行保障作业人员调度。本发明可用于人员调度智能决策，将各类保障小组设定为智能体，辅助指挥人员和保障人员进行决策，提高保障作业决策效率，从而提高舰载机出动回收架次率。

本发明旨在提供基于深度强化学习的舰载机保障作业人员调度算法，可辅助指挥人员进行决策，提高舰载机保障工作执行效率。为实现以上目的，本发明采用如下技术方案：步骤1：建立舰载机保障作业流程的马尔科夫决策过程模型，为智能体训练搭建环境；抽出其重要环境参数以便对环境进行初始化设置，使该方法适应多种甲板环境；步骤2：根据其保障作业特点，确定智能体及其观测空间与动作空间；设定4类型保障小组为4个智能体，其与甲板环境进行直接交互，故每个智能体都能观测到航母机动状态，但对于各机位舰载机，各智能体只可观察到自身负责工序状况，即为其观测空间；各智能体也只能对其自身负责工序做出反应，即为其动作空间；步骤3：根据保障作业需求，构建基于其模型的奖励函数，并将执行后一工序智能体的Q值引入执行其前一工序智能体的奖励函数中，进一步设计其网络结构、经验抽取模式及终止条件；为避免环境变为稀疏奖励环境，同时也需使奖励符合逻辑，故对奖励做出必要限制，

航母具有不可替代的军事价值。衡量航母作战能力的指标通常规定为舰载机架次率，故提高舰载机架次率是航母研究的重点。合理的调度保障作业人员能提高整个甲板运行效率，从而提高舰载机架次率，而合理调度的前提是有合理的调度算法作为支撑，故合理的调度算法是关键。

传统智能优化算法虽能得出较为优秀的调度策略，但受限于其较长的求解时间，无法实时处理如燃油泄漏、设备故障等紧急突发情况。论文《基于改进禁忌搜索算法的舰载机保障作业调度》提出一种改进的禁忌搜索算法并用其优化舰载机保障调度方案，但未考虑保障作业中的紧急突发情况；论文《采用改进遗传算法的舰载机保障调度方法》提出一种基于改进的遗传算法的舰载机调度方法，且该方法具有一定抗干扰能力，但无法达到实时动态决策的效果；专利《基于深度强化学习的舰载机出动回收在线调度方法》提出了基于深度Q网络的舰载机出动回收多目标在线调度方法，但未针对保障作业人员进行调度。且以上算法均只考虑舰载机的调度问题，然而实际保障作业都是由保障人员实施的，即保障人员调度对架次率能够产生较大影响，故对其进行研究具有重要意义。

此技术为哈尔滨理工大学栾添添研发，承担本专科及研究生层次普通高等学历教育工作承担科学技术研究工作

与现有技术相比，此技术产生的效益如下：(1)本发明将多智能体深度确定梯度算法应用于舰载机保障人员调度决策中，利用训练完成的智能体辅助指挥人员调度决策，提高了调度效率；

(2)本发明考虑该调度问题特殊性，设计奖励机制，将智能体的Q值引入奖励函数，并据此改变网络结构；提出一种三指标优先经验回放机制，以降低其错误率。以上改进增强了其对该调度问题的适配性，改善了其在该问题上的表现效果；

(3)本发明方法能够应对保障机位突发紧急事件，具有一定的抗干扰作用。

技术转让，许可，合作所需资金需双方协商，此项技术想尽快落地保定，希望具备此项技术研发的技术方，能够尽快承接此项目。