您所在的位置: 成果库 一种基于深度学习的文献检索方法和系统

一种基于深度学习的文献检索方法和系统

成果类型:: 发明专利

发布时间: 2023-10-20 16:01:26

科技成果产业化落地方案
方案提交机构:天津市滨海新区| 宋学姮 | 2023-10-31 16:34:53
本发明公开了一种基于深度学习的文献检索方法和系统。该系统包括:召回模块,其用于针对用户输入的查询文本,基于预存储的词向量和文本向量,生成多个候选文本;重排模块,其用于将用户输入的查询文本和所述多个候选文本输入到经训练的长文本编码器,获得查询向量以及候选文本向量,并计算查询向量与候选文本向量之间的相似度,获得排序的检索结果。本发明有效解决了文本检索中无监督模型排序效果不理想、有监督文本检索模型无法在大量文书中直接检索的问题,显著提升了检索速度和准确度,尤其适用于涉及以长文本检索长文本的领域。
权利要求 1.一种基于深度学习的文献检索系统,包括: 召回模块:用于针对用户输入的查询文本,基于预存储的词向量和文本向量,生成多个候选文本; 重排模块:用于将用户输入的查询文本和所述多个候选文本输入到经训练的长文本编码器,获得查询向量以及候选文本向量,并计算查询向量与候选文本向量之间的相似度,获得排序的检索结果。 2.根据权利要求1所述的系统,其特征在于,所述召回模块根据以下步骤生成所述多个候选文本: 针对用户输入的查询文本,使用法律领域专用分词器进行分词,并在预存储的第一数据库中查找每个分词所对应的词向量,输入到uSIF算法中得到查询文本原始向量; 从查询文本原始向量中减去预存储的主成分,得到最终查询文本向量; 利用预存储的第二数据库检索出与所述最终查询文本向量在语义上最相似的K个向量及其对应的文本标识,作为召回的所述多个候选文本,其中K是设定的整数。

文献检索是检索对象为文献的一种信息检索技术,是根据学习和工作需要通过检索来获取文献的过程。随着现代网络技术的发展,文献检索通常通过计算机技术来完成。文献的检索语言可划分为分类语言、主题语言等。使用规范的文献检索语言可以快速准确地检索出所需文献资料,但规范的文献检索语言使用门槛较高,普通用户由于不了解分类规则或检索关键字表达不准确等原因不能较好的使用规范的文献检索语言。如何通过分析用户输入的自然语言,直接检索到最需要的文献一直是学术界和工业界关注的问题,相关学者也提出许多方案来尝试解决这个问题。

中国科学院深圳先进技术研究院提升了粤港地区及我国先进制造业和现代服务业的自主创新能力,推动我国自主知识产权新工业的建立,成为国际一流的工业研究院。 深圳先进院目前已初步构建了以科研为主的集科研、教育、产业、资本为一体的微型协同创新生态系统,由九个研究平台,国科大深圳先进技术学院,多个特色产业育成基地、多支产业发展基金、多个具有独立法人资质的新型专业科研机构等组成。开展先进技术研究,促进科技发展。信息、电子、通讯技术研究新材料、新能源技术研究高性能计算、自动化、精密机械研究生物医学与医疗仪器研究相关学历教育、博士后培养与学术交流。

与现有技术相比,本发明的优点在于,有效解决了文本检索中无监督模型排序效果不理想、有监督文本检索模型无法在大量文书中直接检索的问题,显著提升了检索速度和准确度。并且,本发明可以运用到涉及以长文本检索长文本的领域,在所需标注数据量较少的前提下,同时具有较高的检索准确率以及较高的检索速度,从而具有广泛的应用前景。

通过以下参照附图对本发明的示例性实施例的详细描述,本发明的其它特征及其优点将会变得清楚。

技术合作

本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。本发明的范围由所附权利要求来限定。