智能体博弈可视化系统强化
价格 双方协商
地区: 陕西省 西安市 市辖区
需求方: 西北**大学
行业领域
新一代信息技术产业,人工智能
需求背景
一种人机智能博弈系统,所述系统包括:推演方决策模块,用于基于智能体框架模块传入的态势信息,确定动作集合;智能体框架模块,用于将推演房间模块发送的态势信息传入推演方决策模块,以使推演方决策模块生成动作集合,并将动作集合发送至推演房间模块;推演房间模块,用于将动作集合传入推演环境模块,以获取推演环境模块基于动作集合推演得到的态势信息,并将态势信息发送至智能体框架模块。本发明实现了对抗策略生成和智能体运行业务逻辑的解耦,使第三方开发者能够专注于博弈策略研发,同时符合标准的智能体能方便快捷地进行人机、机机对抗,实现了异构智能体的开放接入,显著减少整体故障概率,具有较好的鲁棒性。
需解决的主要技术难题
竞争性自我博弈的强化学习(Competitive Self-Play based Reinforcement Learning,CSP-RL)尤其是多智能体强化学习已经在许多复杂的大规模博弈环境中取得了令人瞩目的效果,例如Dota2、星际争霸Ⅱ、王者荣耀。
从博弈论的角度出发,Self-Play方法通过虚拟的自我博弈寻找纳什均衡(NE),该方法对于竞争性环境场景具有通用性。相较于传统的深度学习算法开发流程,竞争性自我博弈场景下的深度强化学习算法的研究与开发会显得更加复杂,对算法研究者的工程实践水平提出了更高的要求。近年来,MLOps的概念逐渐兴起,MLOps是机器学习的DevOps。
它的主要作用就是建立起一个标准化的模型开发,部署与运维流程。然而目前学术界针对CSP-RL场景还没有一个主流的一站式平台来覆盖该类算法开发的全流程。
为了降低竞争性强化学习场景下算法开发和测试的难度,受到MLOps思想的启发,本文设计并实现了一个面向CSP-RL的分布式算法开发平台,在多用户场景下对竞争性强化学习环境下的算法开发全流程提供支持。
设计的全栈平台提供了多用户场景下开发环境构建、资源分配、模型托管、性能评估和可扩展的强化学习分布式训练的全流程解决方案。本平台基于Kubernetes云原生实现,具有优秀的扩展性和可观测性,相较于通用MLOps平台,对CSP-RL场景实现了许多优化设计来简化强化学习算法开发流程。
为了进一步展示该平台的能力,基于本平台的分布式训练系统,本文在Pommerman的2v2竞争性博弈环境中设计实现了一个高性能的CSP-RL算法,在该场景下进行了详细的算法设计和性能测试。实验结果表明,本文提出的算法所训练的智能体在与环境基准智能体对战中展现非常快速的学习能力,在600轮训练迭代后达到了 80%以上的胜率。
采用门控制法来控制智能体的通信;二是根据不同智能体的信息重要性,采用双向循环网络(RNNs)或注意力机制来学习自适应加权调度器。智能体在创建自己的策略之前,需要先预测竞争对手的行为,并融入对当前环境的理解。面临的挑战是找出均衡的选择策略。首先是复杂的竞争环境(不同的智能体具有不同的任务设置);其次,预测和理解竞争者的目的;最后,如何达到长期收益和短期收益的平衡。
期望实现的主要技术目标
(1)搭建智能体博弈对抗可视化仿真环境;
(2)在仿真环境中对智能体博弈过程进行模拟训练;
(3)智能体博弈性能的综合测试。
技术方法和路线:
(1)总体方案设计;
(2)可视化要素建模;
(3)仿真环境开发;
(4)智能体博弈模拟训练;
(5)智能体博弈性能测试;
(6)项目交付。
需求解析
解析单位:“科创中国”航空制造产业科技服务团(中国航空学会) 解析时间:2023-11-23
杨亮
中国航空学会
高级工程师
综合评价
处理进度