您所在的位置: 成果库 基于相对熵正则化的AC框架及应用其的机械臂控制方法

基于相对熵正则化的AC框架及应用其的机械臂控制方法

发布时间: 2023-10-18

来源: 科技服务团

基本信息

合作方式: 技术服务
成果类型: 发明专利
行业领域:
物理
成果介绍
本申请适用可穿戴式设备技术领域,提供了一种基于相对熵正则化的AC框架及应用其的机械臂控制方法;将相对熵正则化的思想推广至连续动作空间下的AC框架,提出了连续动态策略规划(Continuous Dynamic PolicyProgramming,CDPP)算法。也即将DPP算法扩展至了AC框架中,使学习过程中的策略更新更为平滑。采用其的机械臂控制方法也具有相同的技术效果。
成果亮点
1.一种基于相对熵正则化的AC框架,其中,评论家网络负责对机械臂中每一个控制动作的控制效果进行评估;演员网络则负责输出控制信号来控制机械臂产生相应动作;其特征在于,所述AC框架包括下述步骤: s1.构建训练数据集和动作数据集; s2.所述评论家网络基于所述训练数据集中的数据,在设计机械臂控制过程中的奖励函数时,将相对熵作为惩罚项加入到原奖励函数中构成新的奖励函数; s3.以新的奖励函数对价值函数进行正则化; s4.通过正则化后的价值函数对所述评论家网络、目标评论家网络、演员网络和目标演员网络的更新公式进行优化。 2.如权利要求1所述的AC框架,其特征在于,所述步骤s1包括以下顺序步骤: s11.所述演员网络基于机械臂返回的初始状态s1预测机械臂的初始动作a1,所述机械臂运行初始动作a1后返回第二状态s2和第一奖励值r1; s12.采集初始状态s1、初始动作a1、第二状态s2和第一奖励值r1构成一组数据存入所述训练数据集;所述演员网络基于更新的状态执行步骤s11。
团队介绍
中国科学院深圳先进技术研究院提升了粤港地区及我国先进制造业和现代服务业的自主创新能力,推动我国自主知识产权新工业的建立,成为国际一流的工业研究院。 深圳先进院目前已初步构建了以科研为主的集科研、教育、产业、资本为一体的微型协同创新生态系统,由九个研究平台,国科大深圳先进技术学院,多个特色产业育成基地、多支产业发展基金、多个具有独立法人资质的新型专业科研机构等组成。开展先进技术研究,促进科技发展。信息、电子、通讯技术研究新材料、新能源技术研究高性能计算、自动化、精密机械研究生物医学与医疗仪器研究相关学历教育、博士后培养与学术交流。
成果资料
产业化落地方案
点击查看