您所在的位置: 成果库 基于动态后继树索引结构的密文全文检索系统的索引更新方法

基于动态后继树索引结构的密文全文检索系统的索引更新方法

成果类型:: 发明专利

发布时间: 2023-11-22 08:54:17

科技成果产业化落地方案
方案提交机构:成果发布人| 涂媛 | 2023-11-22 08:54:17

本发明分案申请涉及基于动态后继树索引结构的密文全文检索系统的索引更新方法,该方法包括有增加操作、删除操作和修改操作,更新粒度为文档局部级。所述增加操作包括:为新添加的文本以相对位置建立树叶信息;解密原索引中受添加文本影响的树叶的树叶信息集;将新建立的树叶信息插入原索引中;插入过程中只对添加文本的前驱的树叶关联位置修改,使其指向添加文本的首字符树叶位置,同时将前驱树叶原先的关联位置值写入添加文本的尾字符树叶关联位置;每次插入新的位置信息后,判断树叶信息集长度,如大于设定值则进行树叶信息集划分;对得到的树叶信息集进行加密。采用本方法,可使系统安全高效地实现密文状态下的索引创建及动态更新。

本发明的目的,在于提供一种基于动态后继树索引结构的密文全文检索系统的创建、检 索和索引更新方法。具体技术方案包括如下内容:一、密文全文检索系统中的密文全文索引创建方法,包括以下步骤:(1)将用户提交的涉密原始文本文档原文转化为纯文本,提取原文本文件中的主题、正 文及其他附加属性,并形成文档概要;(2)对原文本文件中的主题、正文、附加属性进行分词处理,并提取特征向量;(3)对步骤(1)中得到的纯文本文档、文档概要分别加密;(4)把步骤(3)中得到的文档密文分布存储到相应的文档密文库,把步骤(3)中得到 的文档概要密文分布存储到相应的文档概要密文库;(5)对步骤(2)中得到的分词、特征向量分别加密;(6)把步骤(5)中得到的特征向量密文存储到特征向量密文库;(7)对步骤(5)中得到的密文分词分发到各索引服务器;(8)各索引服务器根据步骤(7)中的密文分词检索得到相应的分词位置密文;(9)对步骤(8)中得到的分词位置密文进行解密;(10)将步骤(9)中解密后的分词位置传回相应索引服务器;

基于动态后继树索引结构的密文全文检索系统的索引更新方法具有广泛的应用前景。以下是一些具体的应用领域:

 

信息安全领域:该技术可以为企业、政府和个人提供更安全的数据存储和检索解决方案,可以更好地保护敏感数据的机密性和完整性。

 

电子政务领域:通过在电子政务系统中应用索引更新方法,可以提高政府部门的工作效率,使其更加快速地响应公众需求。

 

金融领域:在金融行业中,索引更新方法可以为银行、证券公司、保险公司等机构提供高并发、高性能的数据检索和分析服务,以支持其风险管理和业务决策。

 

生物医学领域:在生物医学领域,索引更新方法可以为医院、科研机构和制药公司等提供快速、高效的数据检索和分析服务,以支持诊断、治疗和药物研发等工作。

 

物联网领域:在物联网领域,索引更新方法可以为智能设备和传感器提供低功耗、高并发的数据检索和分析服务,以支持其智能化和数字化转型。

 

总之,基于动态后继树索引结构的密文全文检索系统的索引更新方法具有广泛的应用前景,可以为各行各业提供更多的技术支持。

广西师范大学地处世界级旅游城市、国家历史文化名城桂林,是国家教育部与广西壮族自治区人民政府共建高校,“中西部高校基础能力建设工程项目”高校,广西重点建设的“国内一流大学”高校,全国文明校园。有王城、育才、雁山3个校区,校园面积4100多亩,各类学生50000多人,各类教职工4000多人(含离退休人员)。学校已发展成为广西教师教育的“领头羊”、人文强桂的“主力军”、科技兴桂的“生力军”、广西国际教育的“排头兵”。目前,学校正全力推进“双一流”建设和综合改革,努力实现建设国际知名、教师教育特色鲜明的国内一流大学的目标。

本发明密文全文检索系统基于我们提供的密文动态后继树索引结构、分词分组方法、文 档局部级的密文动态后继树索引更新方法,实现了安全高效的索引创建、索引的动态更新以 及密文状态下的全文检索和子串查询。与现有的密文全文检索系统相比,本发明具有如下优 势:

(1)高安全性:分词分组方法保证了索引词的安全性。对动态后继树索引结构中分词加 密,屏蔽了分词的真正语义,周期性地更新分词密文使得攻击者对索引文件词表中的密文分 词分析变得无效。对树叶信息集加密,屏蔽了分词位置信息。用伪文档编号组防止了攻击者 通过获得密文分词的位置信息从而拼凑出一篇密文文档的内容。对树叶信息集进行划分,并 将得到的树叶信息子集与树叶变种捆绑加密,既防止了密文长度统计攻击,又进一步保证了 分词的安全性。检索时不需解密密文索引词,只解密检索过程中需要的树叶信息集,对不需 要的树叶信息集仍保持密文状态。

(2)高创建效率和检索效率:经过一次扫描,即可对原文分词并创建索引树。位于树根 的分词组成树根表,位于树叶的分词组成树叶表,树叶分词在原文档中的位置信息组成树叶 信息集。每个树根表项对应一个树叶表,每个树叶表项对应一个树叶信息集,树根表和树叶 表的表项在内存中用字典顺序的HashTree来存储,检索时按需解密,提高了查找速率。

(3)索引更新的高动态:本发明提出的更新粒度为文档局部级的索引动态更新方法可在 需要更新的地方,直接对节点进行增、删、改操作,不需要预留空间,也不用附加索引,实 现了索引文件的实时动态更新。

(4)实现了密文子串查询:本系统模型利用树叶位置和树叶关联位置来记录待匹配串子 串的位置关系,在索引词不脱密状态下实现子串查询,不但保证了密文索引库的安全,同时 也节省了密文子串查询的开销。

技术转让,许可,合作所需资金需双方协商,此项技术想尽快落地保定,希望具备此项技术研发的技术方,能够尽快承接此项目。