低精度训练和量化训练技术研究
价格 双方协商
地区: 上海市 市辖区 浦东新区
需求方: 百度***公司
行业领域
电子信息技术
需求背景
研究 FP16/FP8/BF16 等低精度浮点计算对训练收敛的影响;研究 INT8/INT16 量化训练的可行性,给出具备良好收敛效果的低精度训练方案,实现训练加速.
需解决的主要技术难题
通过使用低精度运算,加速模型训练过程,自动判断模型中各个子网络结构对低精度的敏感性;对各个子网络使用低精度计算后对整体收敛性的影响给出评估,便于自动或人工决策对哪些子网络使用低精度运算能够在保证收敛的情况下对整体模型能够充分加速。
期望实现的主要技术目标
给出全自动或半自动低精度训练方案,在 LLM 或其他常用大模型上,相比飞桨的自动混合精度训练 AMP 策略,模型收敛到相同指标的端到端训练时间缩短10%以上。
需求解析
解析单位:“科创中国”工业互联网产业科技服务团(中国计算机学会) 解析时间:2023-10-08
刘晶
河北工业大学
主任
综合评价
处理进度