_科创中国

一种基于改进DQN算法的室内巡逻机器人自主导航方法

成果类型：: 发明专利,新品种,新技术

发布时间: 2022-09-07 11:02:06

科技成果产业化落地方案

方案提交机构：成果发布人| 孙静 | 2022-09-30 14:30:49

成果简介技术亮点应用前景团队概括产生的效益转化方式

本发明涉及DQN算法技术领域,尤其涉及一种基于改进DQN算法的室内巡逻机器人自主导航方法,包括S1、巡逻机器人感知自身周围的环境信息,并结合自身的位置信息和将到达的目标点组成一个状态空间,在状态空间中依次设置若干目标点,并作为DQN算法的输入;S2、对DQN算法的目标函数进行改进,使目标点不断变起始点,直到最后一个目标点;S3、通过对奖惩函数r进行改进,提高DQN算法收敛速度。本发明对DQN算法进行改进,避免算法陷入死循环的问题;将机器人行驶的路径分段化。

为了克服上述现有技术的不足，本发明所采用的技术方案是：一种基于改进DQN算法的室内巡逻机器人自主导航方法包括以下步骤：经验回放机制提高机器人的样本关联性和解决机器人的效率利用问题；在机器人和环境进行信息交互时，机器人可获得样本数据库；机器人将样本数据库存储到建立的经验池中并随机抽取一小部分数据用于训练样本，再将训练样本送入神经网络中训练；经验回放机制利用样本本身的可重复性来提高学习效率；改进目标函数：目标点是巡逻机器人在运动状态下所需要达到的位置坐标，表示机器人的最终位置，对于巡逻机器人而言，它在执行任务时，需要行驶在固定路线上，并且在巡逻完成后应回到初始位置；将目标点处于起始位置，会导致算法不进行迭代，直接跳转至结尾，从而跳过巡逻步骤；即使设计函数使得算法在第二次达到初始位置时停止迭代，由于DQN算法的自身特点，也将快速停止迭代，最终行走路径可能只有一小格

传统的安防体系是“人防+物防”来实现。可随着人口老龄化加重、劳动力成本飙升、安保人员流失率高等问题，已经难以适应现代安防需求，安防巡逻机器人产业迎来新的发展契机。安防巡逻机器人还处于起步阶段，但巨大的安防市场需求下，其发展潜力和未来前景广阔。由于深度强化学习中的深度Q 网络(deep Q network/DQN)算法在Q-learning的基础上利用神经网络进行融合，从而克服因Q-learning存储数据消耗的内存过大而导致的“维数灾难”问题的缺陷，使得搜索过程不断收敛，最终逼近最优解，已经被广泛应用于解决机器人的自主导航问题中；而室内巡逻机器人又与普通机器人不同，它们的巡逻路径相对统一，且当路径中有障碍出现应优先避开障碍。

Mnih等提出第一个深度强化学习模型，即深度Q网络(DQN)，该网络模型是将神经网络和Q-learning相结合，利用神经网络代替Q值表解决了 Q-learning中的维数灾难问题，但在网络训练时收敛速度较慢；TaiL等把DQN应用到了无模型避障的路径规划中，但存在状态-动作值过估计问题，造成移动机器人获得的奖惩稀疏，且规划出的路径并非最优。

传统的路径规划算法有A*算法、人工势场法以及快速扩展随机树法等。A* 算法有着目标点不可达时会造成大量性能消耗的特点；人工势场法的路径一般是平滑、安全的，但该方法存在局部最优点问题，容易陷入局部极小点，在相似的障碍物之间找不到路径，检测到新的环境障碍物后，人工势场法规划的路径可能发生振荡，在狭窄通道中摆动，快速扩展随机树法的一个弱点是难以在有狭窄通道的环境找到路径。本发明在DQN算法技术领域有着广泛的应用前景。

发明人：毛树人郑剑锋周海翔吴振裕孔鹏程

常州大学坐落于经济发达、人文荟萃的江南历史文化名城——江苏省常州市。学校始建于1978年，原名为南京化工学院无锡分院、常州分院，是一所在我国改革开放之初创办的省属全日制本科院校。1981年经国务院批准，正式定名为江苏化工学院。1984年实行江苏省人民政府和中国石油化工总公司联合办学机制，1992年正式成为中国石油化工集团公司（原中国石油化工总公司）管理的部属院校，并更名为江苏石油化工学院。2000年起，学校实行中央与地方共建、以江苏省管理为主的管理体制，2002年更名为江苏工业学院。2010年，经教育部批准更名为常州大学。2011年，江苏省人民政府与中国石油天然气集团公司、中国石油化工集团公司、中国海洋石油总公司签署共建常州大学协议。历经三十六年的建设和发展，学校成为一所以工学、理学、管理为主、多学科协调发展、具有“产学研”合作办学特色的普通高等院校。

通过改进目标函数，实现巡逻机器人按照预定线路行走，并返回到出发点；巡逻机器人到达第一个目标点位置，完成第一段路程后，会在机器人前进线路上生成第二个目标点，同时将第一目标点变成下一段路程的迭代初始点，并将路线上第一目标点的前一个点变为障碍点，通过分段迭代使巡逻机器人只需对每一段寻找目标点过程进行单独迭代，从而减少迭代次数，还可以防止机器人在每段迭代过程中走“回头路”；并将最后一个阶段的目标点设置为初始阶段的起始点，这样就保证巡逻机器人走完整路线。本发明对DQN算法进行改进，避免算法陷入死循环的问题；同时，将机器人行驶的路径分段化，大大减少了DQN算法的迭代次数；最后通过改进奖惩函数，使DQN算法收敛速度加快，从而完成室内巡逻机器人自主导航的任务。

当前专利在中国不属于公知技术，未经权利人许可不得实施，希望将科技成果转让给研发实力雄厚的企业，由受让人对科技成果实施转化。交易的是科技成果中的知识产权，可以包括专利权、专利申请权、技术秘密等。科技成果转让后，转让方获得转让费，不再是科技成果的所有人；受让方向转让方支付转让费，并成为科技成果的新的所有人。