大语言模型推理加速技术
价格 双方协商
地区: 上海市 市辖区 浦东新区
需求方: 百度***公司
行业领域
电子信息技术
需求背景
LLM 模型推理性能对落地及成本至关重要,由于显存瓶颈通常需要多卡甚至多机进行部署,研究 LLM 模型性能加速方案,包括多卡并行切分、通信优化、Transformer 高效推理、量化及稀疏推理加速,或其他 LLM 模型推理加速算法,节省时延或提升吞吐。
需解决的主要技术难题
1.并行方法及通信优化:在多卡推理中,通信往往一定的占比,可研究多卡并行方法或通信优化;
2.时延优化:可优化 Context 计算及 Decoder 解码截断的更高效的 Transformer 实现或其他高性能算子;
3.吞吐优化:可通过显存优化(如 CacheKV 量化等)提升 Batch Size,或通过其他手段提升整体吞吐。
期望实现的主要技术目标
至少选择1个 PaddleNLP 中 GPT、BLOOM、LLaMA、GLM 及 ChatGLM 等大模型,基于飞桨实现时延或吞吐较已有方案提升20%以上。
需求解析
解析单位:“科创中国”工业互联网产业科技服务团(中国计算机学会) 解析时间:2023-11-27
韩月娟
苏州大学
正高级工程师
综合评价
处理进度