深度强化学习技术

发布时间: 2023-10-02

来源: 科技服务团

截止日期:2023-11-30

价格双方协商

地区：上海市市辖区浦东新区

需求方：百度***公司

行业领域

电子信息技术

需求背景

强化学习指的是智能体通过和环境不断进行交互，根据反馈提升自己的决策能力，从而获得更高的奖励。强化学习在 LLM 大模型的训练过程中也发挥了关键作用。

需解决的主要技术难题

研究与 LLM 相结合的超大规模强化学习训练方法，针对策略训练与样本生成设计协同一体自适应的分布式训练策略。

期望实现的主要技术目标

采用新的训练方法，基于飞桨在 LLM 的 PPO 的强化学习分布式训练速度超越业界 SOTA 10% 以上。

需求解析

解析单位：“科创中国”工业互联网产业科技服务团（中国计算机学会） 解析时间：2023-11-25

韩月娟

苏州大学

正高级工程师

综合评价

需求比较清晰，可以通过研究与 LLM 相结合的超大规模强化学习训练方法，针对策略训练与样本生成设计协同一体自适应的分布式训练策略。采用新的训练方法，基于飞桨在 LLM 的 PPO 的强化学习分布式训练速度超越业界 SOTA 10% 以上。

处理进度

服务方

科创中国