成果类型:发明专利,专利号ZL 2012 1 ***,专利授权公告日:2017年2月8日
技术领域:涉及全文检索系统中使用的高效倒排索引组织方法。
背景技术:
1、大数据时代的网络环境中,信息量和用户量呈爆炸式增长,给大规模信息检索系统准确高效的服务带来了压力和挑战。倒排索引是信息检索的核心,其存储结构及组织方式对信息检索性能的提升有很大影响。在改进检索算法的同时,人们也在努力优化倒排索引结构及其组织方式。
2、目前国内外针对倒排索引优化的研究,主要从以下三方面展开:(1)通过压缩技术减少索引在外存上的体积;(2)对倒排表内容的组织方式进行优化,减少需要访问的倒排表内容;(3)对倒排表的磁盘存储结构进行管理,尽量减少磁盘的IO次数。但现有的成果包括压缩技术、倒排索引组织方式及存储结构还不成熟,很难适应大数据时代信息检索系统信息量大、快速响应精而准的需求,因此本发明提出了一种融合压缩技术的高效的倒排索引结构及组织方法,以解决当前倒排索引优化问题,实现海量数据的有效管理。
1、减少信息冗余:本发明公开了一种高效倒排索引组织方法。将记录倒排项和属性倒排项分开存储,减少信息冗余;
2、可实现数据的高效访问:采用分块方式对倒排索引进行存储,以数据库索引优化为切入点,综合利用链表和集中定位表的优势对倒排块进行管理,既有利于索引动态维护又便于SKIP技术下的随即访问;
3、信息储存效率大大提高:根据域间关联关系,采用了压缩技术,以达到尽量少的空间存储尽量多的信息量。
4、实现海量数据有效管理:所提供的倒排索引结构及组织方法,减少了存储空间、优化了访问时间,在一定程度解决了倒排索引优化问题,能够实现海量数据的有效管理。
拓尔思信创方面拳头产品——“TRS海贝搜索引擎数据库”便应用了“一种高效倒排索引组织方法”发明,使得该产品成为一款“高性能搜索引擎”,不仅高效、安全,还集成了众多开源检索系统不具备的企业级功能,能够有效降低用户的系统建设成本、开发成本和运维成本。
评价单位:- (-)
评价时间:2023-05-05
综合评价
本技术能实现很好的社会效益, 建议推广。
查看更多>