_科创中国

一种考虑海浪干扰的无人艇回收分布式决策仿真系统

成果类型：: 发明专利

发布时间: 2023-09-14 15:52:35

科技成果产业化落地方案

方案提交机构：成果发布人| 熊鹏 | 2023-09-14 15:52:35

成果简介技术亮点应用前景团队概括产生的效益转化方式

本发明公开了一种考虑海浪干扰的无人艇回收分布式决策仿真系统，完成海洋作业中母船对无人艇的自动回收任务。首先，搭建无人艇回收任务所需的仿真环境；基于DuelingNetwork算法设计决策模块，并针对应用场景优化神经网络结构，使决策模块具有短时记忆功能；实现分布式通信机制，将决策模块置于服务器端，环境模块置于客户端；最后，启动服务器与客户端程序，控制无人艇抽象的智能体完成回收任务。该系统针对实际复杂海况，设计模拟物理交互的仿真环境；采用深度强化学习算法，使得AI控制器应对复杂场景时，具有更强的鲁棒性，且让模型具有迁移学习能力；分布式通信机制将训练与控制独立运行，便于实现离线训练，同时可以实现远程控制效果。

本发明旨在提供一种考虑海浪干扰的无人艇回收分布式决策仿真系统，提供一种虚拟环境下的无人艇决策、训练与控制方案。利用其分布式通信的特点，更易于使用迁移学习技术将该方案应用到现实场景中。为模拟复杂海况中海浪对控制器的扰动，本方案中未采用控制领域中常用的海浪模拟方法，即间接的将海浪扰动进行数学建模，并作为扰动信号加入控制器进行反馈控制；而是采用直接物理仿真的方式，在虚拟环境中基于规则生成海浪波，计算机通过计算无人艇与流体的实时物理交互，模拟海浪对船体的影响。采用强化学习算法，使智能体可观测到环境的部分信息并做出动作，实现无人艇的自主训练与决策。在复杂海况下，相比传统控制器具有更强的鲁棒性，可以更好的应对海浪干扰。

海面无人艇作为海洋环境设备的一员，是一种自主式海洋航行器，能够在无人为参与控制下，独立航行并执行任务，以其高灵活性、可拓展性和强自主性等独特优势发挥着不可或缺的作用。目前，海面无人艇归航引导回收需要花费大量的人力物力，难以适应当代海洋作业的需求。首先，无人艇动力学和动力学模型参数不确定性，导致在工程应用中控制器性能差；其次，海面环境复杂，未知扰动繁多，给归航路径规划和轨迹跟踪带来了极大挑战；最后，母船的回收装置与海面无人艇之间自主对接受到诸多限制，高精度引导回收控制是亟待解决的难点。

传统的控制算法，面对复杂的海洋环境，相较于地面的自动驾驶任务，无人艇的控制为欠驱动的运动模型，常常不能得到很好的效果。论文《混合海浪作用下无人艇泊船姿态自动控制方法》中设定海浪的遭遇角为45°，90°和130°，测试3种对比控制方法的艏摇角、横摇角以及舵角的响应角度，设计特定的海浪遭遇角进行仿真实验，实验对比详尽，但在仿真实验中并未采用模拟物理交互的方式实现无人艇控制，然而真实海浪运动的情况更复杂，仅通过特定遭遇角无法还原实际海浪作用；论文《基于深度强化学习的无人艇控制研究》中采用DDPG算法，并将算法融入到传统控制模型中。虽然该论文中同样采用了强化学习算法对船体进行控制，但对于海浪的数学建模过于简单，且只考虑了横摇角对船体的影响，难以证明方案可应用于实际环境。

此技术为哈尔滨理工大学栾添添研发，承担本专科及研究生层次普通高等学历教育工作承担科学技术研究工作

与现有技术相比，此技术产生的效益如下：(1)本发明在仿真环境下对海浪波进行物理模拟，可实现实时物理交互，针对控制系统，相较传统方法中对海浪进行数学建模，并作为信号输入进控制器的方法，对于复杂海洋环境，具有更强的可验证性以及实用性；

(2)本发明采用深度强化学习算法实现无人艇的自动控制，算法根据智能体与场景交互得到经验训练模型并做出决策，有较强的鲁棒性；针对该应用场景，优化基于Dueling Network算法的神经网络结构，将过去四个时刻的状态都作为神经网络的输入，可以让智能体对未来时刻状态具有一定预测能力，无人艇应对实时变化且难以预测的海浪环境，具有更好的表现效果；

(3)本发明采用分布式的通信方法，该方法将训练过程与决策过程多线程异步执行，进而提高训练效率；通过调整通信频率，可实现实际环境中对智能体的远程控制，而无需将运算单元搭载至无人艇上；

(4)本发明将决策模块与仿真模块隔离，分别搭载至服务器端和客户端，在虚拟环境下可以得到现实场景中难以获得的经验数据，如翻船、碰撞或损毁，保存仿真模块下训练的神经网络模型，进一步投入真实场景训练，可实现对真实环境的迁移学习任务。

技术转让，许可，合作所需资金需双方协商，此项技术想尽快落地保定，希望具备此项技术研发的技术方，能够尽快承接此项目。