一种高效倒排索引组织方法
成果类型:: 发明专利
发布时间: 2022-11-13 17:15:28
成果类型:发明专利,专利号ZL 2012 1 0511478.1,专利授权公告日:2017年2月8日技术领域:涉及全文检索系统中使用的高效倒排索引组织方法。背景技术:1、大数据时代的网络环境中,信息量和用户量呈爆炸式增长,给大规模信息检索系统准确高效的服务带来了压力和挑战。倒排索引是信息检索的核心,其存储结构及组织方式对信息检索性能的提升有很大影响。在改进检索算法的同时,人们也在努力优化倒排索引结构及其组织方式。2、目前国内外针对倒排索引优化的研究,主要从以下三方面展开:(1)通过压缩技术减少索引在外存上的体积;(2)对倒排表内容的组织方式进行优化,减少需要访问的倒排表内容;(3)对倒排表的磁盘存储结构进行管理,尽量减少磁盘的IO次数。但现有的成果包括压缩技术、倒排索引组织方式及存储结构还不成熟,很难适应大数据时代信息检索系统信息量大、快速响应精而准的需求,因此本发明提出了一种融合压缩技术的高效的倒排索引结构及组织方法,以解决当前倒排索引优化问题,实现海量数据的有效管理。
1、减少信息冗余:本发明公开了一种高效倒排索引组织方法。将记录倒排项和属性倒排项分开存储,减少信息冗余;2、可实现数据的高效访问:采用分块方式对倒排索引进行存储,以数据库索引优化为切入点,综合利用链表和集中定位表的优势对倒排块进行管理,既有利于索引动态维护又便于SKIP技术下的随即访问;3、信息储存效率大大提高:根据域间关联关系,采用了压缩技术,以达到尽量少的空间存储尽量多的信息量。4、实现海量数据有效管理:所提供的倒排索引结构及组织方法,减少了存储空间、优化了访问时间,在一定程度解决了倒排索引优化问题,能够实现海量数据的有效管理。
应用“一种高效倒排索引组织方法”发明的“TRS海贝搜索引擎数据库”可实现全文检索数据库国产替代 当今的全文检索数据库市场,基本上处于开源软件ElasticSearch一家独大的局面。Elasticsearch是一款基于Lucene的搜索服务器,可以提供分布式多用户能力的全文搜索引擎。ElasticSearch自发布以来,凭借高效的性能,开放的架构,以及开源免费的商业模式迅速占领了全文检索的市场。目前国内外很多企业已放弃自主研发全文检索数据库,逐渐转投ElasticSearch阵营,而还在坚持全文检索数据库自主研发并保持技术领先的企业凤毛麟角。 随着ElasticSearch的市场占有率越来越高,暴露出的安全问题也逐渐增多。2019年底发生的用户隐私泄漏事件,致使超过27亿个电邮地址(有10亿个密码是简单的明文)被盗,其中不乏我国的互联网大牌供应商;2020年初,又爆出黑客入侵超过1.5W台ElasticSearch服务器事件,以上问题对用户信息安全造成了极大的威胁。 数字时代,数据检索在数据管理中的重要性大大提高,没有高效的检索,大数据几乎无法可用;没有准确的检索,大数据的分析挖掘手段也难以施展;特别是互联网搜索引擎普及应用以后,在一个基于大数据的应用系统里,没有便捷的搜索引擎更是无法想象的。从原理上讲,作为一款大数据管理系统,数据存储并不是目的,存储数据的目的是通过数据分析来挖掘数据价值。 不可否认,
拓尔思信创方面拳头产品——“TRS海贝搜索引擎数据库”便应用了“一种高效倒排索引组织方法”发明,使得该产品成为一款“高性能搜索引擎”,不仅高效、安全,还集成了众多开源检索系统不具备的企业级功能,能够有效降低用户的系统建设成本、开发成本和运维成本。
其典型行业应用如下:
某网安项目:数据量巨大、数据类型丰富,单集群每日新增数据超过60亿
该项目采用海贝搜索引擎数据库用于网络数据安全管理,特点主要为集群规模大,单集群从数十个节点到数百个节点不等;数据量巨大,单集群每日新增数据超过60亿,每天处理超过20T数据,总记录数超过万亿,存储总数据量PB级别;项目分布范围广,已经在全国多个省市展开。项目经过一段时间的运行,在多个同类产品对比中,用户对海贝搜索引擎数据库赞不绝口。
某项目:超大规模集群,大大降低资源消耗
在某项目系统建设中,单集群的服务器数量达到了600台。众所周知,在分布式系统里,单集群机器的数量越多,系统在机器之间协调通讯的工作也就会成倍增长。我们通过架构的调整和系统的优化,大大降低了这部分的资源消耗,让超大规模集群成为了可能。
信用中国项目:并发访问量大,日检索量突破10亿
“信用中国”网站由国家发展改革委、人民银行指导,国家信息中心主办,是政府褒扬诚信、惩戒失信的总窗口。网站提供全国企业(一亿多家)信用信息、信用代码、以及相关站内文章的公开查询服务。2018年底“信用中国”的搜索服务迁移到TRS海贝大数据管理平台。在信用中国项目中,海贝单集群日检索量突破10亿。其中,单台服务器的每秒并发检索突破1K。
全文检索数据库是以倒排索引为核心构建的新一代数据库。
而“TRS海贝搜索引擎数据库”正运用了“一种高效倒排索引组织方法”发明