本发明公开了一种基于深度学习的文献检索方法和系统。该系统包括:召回模块,其用于针对用户输入的查询文本,基于预存储的词向量和文本向量,生成多个候选文本;重排模块,其用于将用户输入的查询文本和所述多个候选文本输入到经训练的长文本编码器,获得查询向量以及候选文本向量,并计算查询向量与候选文本向量之间的相似度,获得排序的检索结果。本发明有效解决了文本检索中无监督模型排序效果不理想、有监督文本检索模型无法在大量文书中直接检索的问题,显著提升了检索速度和准确度,尤其适用于涉及以长文本检索长文本的领域。
权利要求
1.一种基于深度学习的文献检索系统,包括:
召回模块:用于针对用户输入的查询文本,基于预存储的词向量和文本向量,生成多个候选文本;
重排模块:用于将用户输入的查询文本和所述多个候选文本输入到经训练的长文本编码器,获得查询向量以及候选文本向量,并计算查询向量与候选文本向量之间的相似度,获得排序的检索结果。
2.根据权利要求1所述的系统,其特征在于,所述召回模块根据以下步骤生成所述多个候选文本:
针对用户输入的查询文本,使用法律领域专用分词器进行分词,并在预存储的第一数据库中查找每个分词所对应的词向量,输入到uSIF算法中得到查询文本原始向量;
从查询文本原始向量中减去预存储的主成分,得到最终查询文本向量;
利用预存储的第二数据库检索出与所述最终查询文本向量在语义上最相似的K个向量及其对应的文本标识,作为召回的所述多个候选文本,其中K是设定的整数。
中国科学院深圳先进技术研究院提升了粤港地区及我国先进制造业和现代服务业的自主创新能力,推动我国自主知识产权新工业的建立,成为国际一流的工业研究院。 深圳先进院目前已初步构建了以科研为主的集科研、教育、产业、资本为一体的微型协同创新生态系统,由九个研究平台,国科大深圳先进技术学院,多个特色产业育成基地、多支产业发展基金、多个具有独立法人资质的新型专业科研机构等组成。开展先进技术研究,促进科技发展。信息、电子、通讯技术研究新材料、新能源技术研究高性能计算、自动化、精密机械研究生物医学与医疗仪器研究相关学历教育、博士后培养与学术交流。
评价单位:“科创中国”天津中科院先进科技成果技术转移转化专业科技服务团 (天津中科先进技术产业有限公司)
评价时间:2023-11-21
综合评价
结合以上来看,本项技术有效的解决了现有检索技术的明显不足,能够有效提高工作效率与速度,市场应用前景广阔,优势明显,具备市场推广空间,因此希望该项技术尽快进行市场推广。
查看更多>