优化算法和收敛性研究
价格 双方协商
地区: 上海市 市辖区 浦东新区
需求方: 百度***公司
行业领域
电子信息技术
需求背景
研究能加速深度学习训练收敛的数值优化策略;研究大 batch size 训练时的收敛性问题,以支持更大节点数的分布式训练;研究大规模异步并行训练时的收敛性问题及优化策略,为多场景的异步训练效果提供理论指导。
需解决的主要技术难题
从优化器、异步训练、模型实现、大 batch size 等不同策略角度,研究影响大模型训练收敛的重要因素;从端到端收敛时间角度,评估不同策略对大模型收敛效果的影响。
期望实现的主要技术目标
给出不同算法策略对大模型训练收敛的理论分析和基于飞桨的实验验证结果, 并在至少 3 个大模型上进行验证。
需求解析
解析单位:“科创中国”工业互联网产业科技服务团(中国计算机学会) 解析时间:2023-10-08
刘晶
河北工业大学
主任
综合评价
处理进度