您所在的位置: 需求库 技术需求 深度强化学习技术

深度强化学习技术

发布时间: 2023-10-02
来源: 科技服务团
截止日期:2023-11-30

价格 双方协商

地区: 上海市 市辖区 浦东新区

需求方: 百度***公司

行业领域

电子信息技术

需求背景

强化学习指的是智能体通过和环境不断进行交互,根据反馈提升自己的决策能力, 从而获得更高的奖励。强化学习在 LLM 大模型的训练过程中也发挥了关键作用。

需解决的主要技术难题

研究与 LLM 相结合的超大规模强化学习训练方法,针对策略训练与样本生成设计协同一体自适应的分布式训练策略。

期望实现的主要技术目标

采用新的训练方法,基于飞桨在 LLM 的 PPO 的强化学习分布式训练速度超越业界 SOTA 10% 以上。

需求解析

解析单位:“科创中国”工业互联网产业科技服务团(中国计算机学会) 解析时间:2023-11-25

韩月娟

苏州大学

正高级工程师

综合评价

需求比较清晰,可以通过研究与 LLM 相结合的超大规模强化学习训练方法,针对策略训练与样本生成设计协同一体自适应的分布式训练策略。采用新的训练方法,基于飞桨在 LLM 的 PPO 的强化学习分布式训练速度超越业界 SOTA 10% 以上。
查看更多>
更多

处理进度

  1. 提交需求
    2023-10-02 20:52:43
  2. 确认需求
    2023-10-07 17:55:40
  3. 需求服务
    2023-10-07 17:55:40
  4. 需求签约
  5. 需求完成