您所在的位置: 成果库 一种基于对比学习的长文本检索模型

一种基于对比学习的长文本检索模型

发布时间: 2023-11-08

来源: 试点城市(园区)

基本信息

合作方式: 技术服务
成果类型: 发明专利
行业领域:
物理
成果介绍
本申请提供了一种基于对比学习的长文本检索模型,包括法律领域预训练模块、对比学习模块以及检索模块;其中,法律领域预训练模块,用于构建基础的长文本编码器,以及使用法律文书语料对长文本编码器进行领域预训练;对比学习模块,用于从案例标注数据集中构造训练数据,以及利用训练数据对所述长文本编码器进行文本向量训练,其中,训练数据包括查询语句及其正样本、负样本;检索模块,用于采用训练好的长文本编码器检测长文本查询语句对应的案例。通过上述方式,本申请的长文本检索模型能够有效解决深度模型处理长文本的问题,结合类案检索的特点,使用领域预训练以及对比学习方法对文档编码器进行调整,提高了检索的准确度和效率。
成果亮点
一种基于对比学习的长文本检索模型,其特征在于,所述长文本检索模型包括法律领域预训练模块、对比学习模块以及检索模块;其中, 所述法律领域预训练模块,用于构建基础的长文本编码器,以及使用法律文书语料对所述长文本编码器进行领域预训练; 所述对比学习模块,用于从案例标注数据集中构造训练数据,以及利用所述训练数据对所述长文本编码器进行文本向量训练,其中,所述训练数据包括查询语句及其正样本、负样本; 所述检索模块,用于采用训练好的长文本编码器检测长文本查询语句对应的案例。
团队介绍
中国科学院深圳先进技术研究院提升了粤港地区及我国先进制造业和现代服务业的自主创新能力,推动我国自主知识产权新工业的建立,成为国际一流的工业研究院。 深圳先进院目前已初步构建了以科研为主的集科研、教育、产业、资本为一体的微型协同创新生AC态系统,由九个研究平台,国科大深圳先进技术学院,多个特色产业育成基地、多支产业发展基金、多个具有独立法人资质的新型专业科研机构等组成。开展先进技术研究,促进科技发展。信息、电子、通讯技术研究新材料、新能源技术研究高性能计算、自动化、精密机械研究生物医学与医疗仪器研究相关学历教育、博士后培养与学术交流。
成果资料