深度强化学习技术
价格 双方协商
地区: 上海市 市辖区 浦东新区
需求方: 百度***公司
行业领域
电子信息技术
需求背景
强化学习指的是智能体通过和环境不断进行交互,根据反馈提升自己的决策能力, 从而获得更高的奖励。强化学习在 LLM 大模型的训练过程中也发挥了关键作用。
需解决的主要技术难题
研究与 LLM 相结合的超大规模强化学习训练方法,针对策略训练与样本生成设计协同一体自适应的分布式训练策略。
期望实现的主要技术目标
采用新的训练方法,基于飞桨在 LLM 的 PPO 的强化学习分布式训练速度超越业界 SOTA 10% 以上。
需求解析
解析单位:“科创中国”工业互联网产业科技服务团(中国计算机学会) 解析时间:2023-11-25
韩月娟
苏州大学
正高级工程师
综合评价
处理进度