_科创中国

一种针对紧急突发状况的舰载机保障作业人员调度方法

成果类型：: 发明专利

发布时间: 2023-09-15 11:06:06

科技成果产业化落地方案

方案提交机构：成果发布人| 熊鹏 | 2023-09-15 11:06:06

成果简介技术亮点应用前景团队概括产生的效益转化方式

本发明公开了一种舰载机保障人员调度方法，应对甲板舰载机保障作业调度的不确定突发状况。首先将保障人员对舰载机的保障过程构造为马尔科夫决策过程；随后根据该过程特点设计一种改进的Soft Actor Critic(SAC)调度算法：(1)为降低学习难度，将SAC算法拓展为多智能体算法，并添加环境数据处理，减少智能体需处理的环境状态信息；(2)为避免动作冲突情况，设计自适应率以增加调度质量；(3)为优化整体训练过程，设置无效动作屏蔽机制、优先经验回放机制。最后将设计好的算法投入训练，完成训练的智能体即可投入调度。该方法能够较好地应对甲板出现的紧急突发状况，使得甲板调度对于不确定性有着更强的鲁棒性，增加了甲板调度的效率。

本发明旨在提供针对紧急突发状况的舰载机保障作业人员调度算法，提高舰载机保障工作执行效率。为实现以上目的，本发明采用如下技术方案：步骤1：对于舰载机出动回收流程进行分析，明确其流程特性，并提取出关键需求，为后续步骤设计提出基本要求；步骤2：根据步骤1所明确特点，确定环境及智能体，并根据环境特点设置状态空间、动作空间及状态转移，同时设计相应奖励函数，建立起整体环境‑智能体训练框架，并确定采用多智能体算法求解该问题模型；步骤3：对原始环境数据进行处理，根据学习特性，将不必要数据滤去，仅采用必要数据进行决策，减少智能体所需观测值，以此降低学习难度，优化学习过程；步骤4：基于前述步骤设定及要求，首先因SAC(Soft Actor Critic)算法的鲁棒性强，适用于甲板调度环境，故为SAC算法设计多智能体学习框架，将其应用于多智能体学习，随后为进一步优化其学习过程，采用无效动作屏蔽，使得其学习过程进一步得到优化，再为针对小概率的甲板紧急突发状况进行学习，设置相应优先经验抽取机制，使其能对甲板紧急突发状况进行有效学习，最后为解决动作冲

航母作为大国海军远洋作战的核心，同时也是综合国力与海军实力的象征，具有无可比拟的军事价值。衡量航母作战能力的指标通常规定为舰载机架次率，而架次率与多方面因素有关，当航母建成后，其硬件配置基本固定，主要能够提高航母作战能力的途径则是提高对各方资源的利用效率。而将各方面效率体现于舰载机出动回收架次率的重要一环在于舰载机于甲板进行的各类保障任务，同时，实际目前航母上大部分的保障作业都是由保障人员来实施的，故对保障人员的调度能对保障工作效率的提升产生直接的影响。

传统智能优化算法虽能得出较为优秀的调度策略，但多对于整体排班表进行优化，难以应对甲板的紧急突发状况。论文《舰载机甲板机务勤务保障作业调度与资源配置集成优化》构建舰载机甲板机务勤务保障作业调度与资源配置集成优化模型，采用NSGAⅡ求解，但未考虑保障作业中的紧急突发情况；论文《基于边际‑人工蜂群算法的舰载机机群出动保障人员配置‑调度联合优化方法》同时优化人员配置和调度问题，外层采用边际优化算法进行求解人员配置问题，内层采用改进的人工蜂群算法求解调度问题，但无法应对甲板紧急突发状况造成的影响；专利《基于深度强化学习的舰载机保障作业人员调度方法》提出了基于MADDPG算法的舰载机保障人员调度方法，虽其考虑了实时调度，也可对甲板紧急突发状况做出即时反应，但却未对执行动作冲突进行相应处理，仅通过频繁决策来弥补可能出现的动作冲突，如此将会加长决策时间。由此可见，在解决保障人员调度问题时，同时考虑动作冲突与甲板紧急突发状况能够对于决策进行进一步的优化。

此技术为哈尔滨理工大学栾添添研发，承担本专科及研究生层次普通高等学历教育工作承担科学技术研究工作

与现有技术相比，此技术产生的效益如下：(1)本发明提出方法由强鲁棒性单智能体算法改进而来，继承了原算法的优秀鲁棒性，更加适合保障调度问题；

(2)本发明提出方法通过设置自适应冲突惩罚系数，减少了算法的敏感超参数，将算法的收敛提前了30‑50次训练，且在训练后期奖励波动明显减小；

(3)本发明提出方法通过设置无效动作屏蔽与优先经验抽取，优化了学习过程，使得智能体足以完成本应无法完成的任务，稳定了学习过程。

技术转让，许可，合作所需资金需双方协商，此项技术想尽快落地保定，希望具备此项技术研发的技术方，能够尽快承接此项目。