您所在的位置: 需求库 技术需求 ⻓窗⼝训练研究

⻓窗⼝训练研究

发布时间: 2023-10-02
来源: 科技服务团
截止日期:2023-10-07

价格 双方协商

地区: 北京市 市辖区 海淀区

需求方: 北京***公司

行业领域

电子信息技术

需求背景

context window的⼤⼩影响到⼤模型能够接受外部prompt输⼊的⻓度,是⼤模型基础能⼒中重要的因素。

需解决的主要技术难题

1.⻓窗⼝友好的⽹络架构:研究位置编码以及⻓窗⼝友好的⽹络架构等。2. ⻓窗⼝友好的数据及训练⽅法:研究⻓窗⼝友好的数据、训练的⽅法(全量还是增量)等。3. ⻓窗⼝能⼒的评测:研究如何进⾏⻓窗⼝能⼒的评测。 4. ⻓窗⼝外推⽅案探索:研究⻓窗⼝外推⽅案,外推原理,做到 train short,inference longer。

期望实现的主要技术目标

1.窗⼝⻓度。2.如何使⽤更低成本实现⻓窗⼝的能⼒。3.⻓窗⼝的能⼒评测。

需求解析

解析单位:“科创中国”工业互联网产业科技服务团(中国计算机学会) 解析时间:2023-10-15

赵娜

云南大学

副教授

综合评价

随着互联网和数字化时代的不断发展,长文本数据的产生和应用日益增多,如新闻文章、社交媒体内容、法律文件等。因此,为了更好地处理和分析这些重要的长文本数据,提升大模型在长窗口输入下的能力势在必行。 本项目创新地解决了大模型在处理长窗口输入时的困难和挑战。通过设计长窗口友好的网络架构和位置编码方法,以及优化数据处理和训练的策略,本项目能够提高大模型对长文本输入的接受能力和处理效率。此外,通过研究评估体系和外推方案,本项目能确保模型在处理长窗口时具备良好的性能和泛化能力。
查看更多>
更多

处理进度

  1. 提交需求
    2023-10-02 22:36:30
  2. 确认需求
    2023-10-07 17:57:21
  3. 需求服务
    2023-10-07 17:57:21
  4. 需求签约
  5. 需求完成