本申请适用可穿戴式设备技术领域,提供了一种基于相对熵正则化的AC框架及应用其的机械臂控制方法;将相对熵正则化的思想推广至连续动作空间下的AC框架,提出了连续动态策略规划(Continuous Dynamic PolicyProgramming,CDPP)算法。也即将DPP算法扩展至了AC框架中,使学习过程中的策略更新更为平滑。采用其的机械臂控制方法也具有相同的技术效果。
1.一种基于相对熵正则化的AC框架,其中,评论家网络负责对机械臂中每一个控制动作的控制效果进行评估;演员网络则负责输出控制信号来控制机械臂产生相应动作;其特征在于,所述AC框架包括下述步骤:
s1.构建训练数据集和动作数据集;
s2.所述评论家网络基于所述训练数据集中的数据,在设计机械臂控制过程中的奖励函数时,将相对熵作为惩罚项加入到原奖励函数中构成新的奖励函数;
s3.以新的奖励函数对价值函数进行正则化;
s4.通过正则化后的价值函数对所述评论家网络、目标评论家网络、演员网络和目标演员网络的更新公式进行优化。
2.如权利要求1所述的AC框架,其特征在于,所述步骤s1包括以下顺序步骤:
s11.所述演员网络基于机械臂返回的初始状态s1预测机械臂的初始动作a1,所述机械臂运行初始动作a1后返回第二状态s2和第一奖励值r1;
s12.采集初始状态s1、初始动作a1、第二状态s2和第一奖励值r1构成一组数据存入所述训练数据集;所述演员网络基于更新的状态执行步骤s11。
传统的自主规划机械臂控制方法需要依赖人类对具体机械臂的先验知识进行建模,再根据模型设计控制器。其中基于规则的传统控制器通常围绕具体任务手动调整参数以获得优秀的控制表现,这使得控制表现高度依赖参数选择,缺乏应对复杂环境下多种任务的泛化能力。而基于数据的神经网络控制器则需要大量数据进行预训练,受限于真实机械臂高昂的采样成本而大多限制在模拟仿真实验中,距离真实工业环境中的应用仍有距离。
中国科学院深圳先进技术研究院提升了粤港地区及我国先进制造业和现代服务业的自主创新能力,推动我国自主知识产权新工业的建立,成为国际一流的工业研究院。 深圳先进院目前已初步构建了以科研为主的集科研、教育、产业、资本为一体的微型协同创新生态系统,由九个研究平台,国科大深圳先进技术学院,多个特色产业育成基地、多支产业发展基金、多个具有独立法人资质的新型专业科研机构等组成。开展先进技术研究,促进科技发展。信息、电子、通讯技术研究新材料、新能源技术研究高性能计算、自动化、精密机械研究生物医学与医疗仪器研究相关学历教育、博士后培养与学术交流。
本申请在基于相对熵正则化的AC算法框架:将相对熵正则化的思想推广至连续动作空间下的AC框架,提出了连续动态策略规划(Continuous Dynamic PolicyProgramming,CDPP)算法。也即将DPP算法扩展至了AC框架中,使学习过程中的策略更新更为平滑。采用其的机械臂控制方法也具有相同的技术效果。
技术合作
以上所述仅为本申请的较佳实施例而已,并不用以限制本申请,凡在本申请的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本申请的保护范围之内。