您所在的位置: 需求库 技术需求 大语言模型推理加速技术

大语言模型推理加速技术

发布时间: 2023-10-02
来源: 科技服务团
截止日期:2023-11-30

价格 双方协商

地区: 上海市 市辖区 浦东新区

需求方: 百度***公司

行业领域

电子信息技术

需求背景

LLM 模型推理性能对落地及成本至关重要,由于显存瓶颈通常需要多卡甚至多机进行部署,研究 LLM 模型性能加速方案,包括多卡并行切分、通信优化、Transformer 高效推理、量化及稀疏推理加速,或其他 LLM 模型推理加速算法,节省时延或提升吞吐。

需解决的主要技术难题

1.并行方法及通信优化:在多卡推理中,通信往往一定的占比,可研究多卡并行方法或通信优化;

2.时延优化:可优化 Context 计算及 Decoder 解码截断的更高效的 Transformer 实现或其他高性能算子;

3.吞吐优化:可通过显存优化(如 CacheKV 量化等)提升 Batch Size,或通过其他手段提升整体吞吐。

期望实现的主要技术目标

至少选择1个 PaddleNLP 中 GPT、BLOOM、LLaMA、GLM 及 ChatGLM 等大模型,基于飞桨实现时延或吞吐较已有方案提升20%以上。

需求解析

解析单位:“科创中国”工业互联网产业科技服务团(中国计算机学会) 解析时间:2023-11-27

韩月娟

苏州大学

正高级工程师

综合评价

需求较为明确,LLM 模型推理性能对落地及成本至关重要,由于显存瓶颈通常需要多卡甚至多机进行部署,研究 LLM 模型性能加速方案,包括多卡并行切分、通信优化、Transformer 高效推理、量化及稀疏推理加速,或其他 LLM 模型推理加速算法,节省时延或提升吞吐。需求的解决可通过以下研究来实现:并行方法及通信优化:在多卡推理中,通信往往一定的占比,可研究多卡并行方法或通信优化;时延优化:可优化 Context 计算及 Decoder 解码截断的更高效的 Transformer 实现或其他高性能算子;吞吐优化:可通过显存优化(如 CacheKV 量化等)提升 Batch Size,或通过其他手段提升整体吞吐。需求较为共性,已有可能实现的技术积累,但尚未普及。
查看更多>
更多

处理进度

  1. 提交需求
    2023-10-02 20:55:13
  2. 确认需求
    2023-10-07 17:56:05
  3. 需求服务
    2023-10-07 17:56:05
  4. 需求签约
  5. 需求完成