您所在的位置: 需求库 技术需求 智能体博弈可视化系统强化

智能体博弈可视化系统强化

发布时间: 2023-11-06
来源: 科技服务团
截止日期:2023-11-08

价格 双方协商

地区: 陕西省 西安市 市辖区

需求方: 西北**大学

行业领域

新一代信息技术产业,人工智能

需求背景

一种人机智能博弈系统,所述系统包括:推演方决策模块,用于基于智能体框架模块传入的态势信息,确定动作集合;智能体框架模块,用于将推演房间模块发送的态势信息传入推演方决策模块,以使推演方决策模块生成动作集合,并将动作集合发送至推演房间模块;推演房间模块,用于将动作集合传入推演环境模块,以获取推演环境模块基于动作集合推演得到的态势信息,并将态势信息发送至智能体框架模块。本发明实现了对抗策略生成和智能体运行业务逻辑的解耦,使第三方开发者能够专注于博弈策略研发,同时符合标准的智能体能方便快捷地进行人机、机机对抗,实现了异构智能体的开放接入,显著减少整体故障概率,具有较好的鲁棒性。

需解决的主要技术难题

竞争性自我博弈的强化学习(Competitive Self-Play based Reinforcement Learning,CSP-RL)尤其是多智能体强化学习已经在许多复杂的大规模博弈环境中取得了令人瞩目的效果,例如Dota2、星际争霸Ⅱ、王者荣耀。

从博弈论的角度出发,Self-Play方法通过虚拟的自我博弈寻找纳什均衡(NE),该方法对于竞争性环境场景具有通用性。相较于传统的深度学习算法开发流程,竞争性自我博弈场景下的深度强化学习算法的研究与开发会显得更加复杂,对算法研究者的工程实践水平提出了更高的要求。近年来,MLOps的概念逐渐兴起,MLOps是机器学习的DevOps。

它的主要作用就是建立起一个标准化的模型开发,部署与运维流程。然而目前学术界针对CSP-RL场景还没有一个主流的一站式平台来覆盖该类算法开发的全流程。

为了降低竞争性强化学习场景下算法开发和测试的难度,受到MLOps思想的启发,本文设计并实现了一个面向CSP-RL的分布式算法开发平台,在多用户场景下对竞争性强化学习环境下的算法开发全流程提供支持。

设计的全栈平台提供了多用户场景下开发环境构建、资源分配、模型托管、性能评估和可扩展的强化学习分布式训练的全流程解决方案。本平台基于Kubernetes云原生实现,具有优秀的扩展性和可观测性,相较于通用MLOps平台,对CSP-RL场景实现了许多优化设计来简化强化学习算法开发流程。

为了进一步展示该平台的能力,基于本平台的分布式训练系统,本文在Pommerman的2v2竞争性博弈环境中设计实现了一个高性能的CSP-RL算法,在该场景下进行了详细的算法设计和性能测试。实验结果表明,本文提出的算法所训练的智能体在与环境基准智能体对战中展现非常快速的学习能力,在600轮训练迭代后达到了 80%以上的胜率。

采用门控制法来控制智能体的通信;二是根据不同智能体的信息重要性,采用双向循环网络(RNNs)或注意力机制来学习自适应加权调度器。智能体在创建自己的策略之前,需要先预测竞争对手的行为,并融入对当前环境的理解。面临的挑战是找出均衡的选择策略。首先是复杂的竞争环境(不同的智能体具有不同的任务设置);其次,预测和理解竞争者的目的;最后,如何达到长期收益和短期收益的平衡。

期望实现的主要技术目标

(1)搭建智能体博弈对抗可视化仿真环境;

(2)在仿真环境中对智能体博弈过程进行模拟训练;

(3)智能体博弈性能的综合测试。

 技术方法和路线:

 (1)总体方案设计;

(2)可视化要素建模;

(3)仿真环境开发;

(4)智能体博弈模拟训练;

(5)智能体博弈性能测试;

(6)项目交付。                    

需求解析

解析单位:“科创中国”航空制造产业科技服务团(中国航空学会) 解析时间:2023-11-23

杨亮

中国航空学会

高级工程师

综合评价

强化学习是近年来机器学习和智能控制领域的主要方法之一。也就是说强化学习关注的是智能体如何在环境中采取一系列行为,从而获得最大的累积回报。通过强化学习,一个智能体应该知道在什么状态下应该采取什么行为。强化学习是从环境状态到动作的映射的学习,我们把这个映射称为策略。 早期的强化学习算法主要关注于状态和动作都是离散且有限的问题,可以使用表格来记录这些概率。但在很多实际问题中,有些任务的状态和动作的数量非常多。为了有效地解决这些问题,可以一个复杂的函数(比如深度神经网络)来使得智能体可以感知更复杂的环境状态以及建立更复杂的策略,提高强化学习算法的能力,并提高泛化能力。深度强化学习是将强化学习和深度学习结合在一起,用强化学习来定义问题和优化目标,用深度学习来解决策略和值函数的建模问题,然后使用误差反向传播算法来优化目标函数。深度强化学习在一定程度上具备解决复杂问题的通用智能,并在很多任务上都取得了很大的成功。 针对空频域的智能博弈问题,环境的规模较大,包括状态空间、动作空间以及需要控制的智能体数量巨大,直接利用传统的方法解决显然是不合理的。因此利用多种多智能体强化学习算法对策略进行学习。
查看更多>
更多

处理进度

  1. 提交需求
    2023-11-06 15:18:17
  2. 确认需求
    2023-11-08 16:03:17
  3. 需求服务
    2023-11-23 19:25:02
  4. 需求签约
    2023-11-24 13:16:09
  5. 需求完成
    2023-11-24 13:16:09