压缩索引理论、技术及其应用
发布时间: 2022-06-15
来源: 科创项目库
基本信息
"建立了并开发了嫡压缩的文本自索引理论与技术,同时支持在压缩索引上的快速检 索。理论空间占用为nHk + 2nlog(Hk+2) + n + o(n)位。定位给定模式P在输入文本T中 的所有出现时间复杂度为0(m log n + occ log n(loglog n)2)o字串提取时间复杂度为O(len (log o + loglog n) + log n(loglog n)2),其中n是文本T的输入规模,。是T的字符表大小, Hk是T的高阶经验嫡,occ是模式P在文本T中的出现次数。
提出并开发了首个图数据库相似性搜索的简明索引,支持图的快速相似性搜索。理 论空间占用逼近图数据库大小的线性对数函数。在实现上,该索引是首个能在内存中在2 千500万个化学分子结构图数据库中进行快速图的相似性搜索的简明索引。已有索引都是 传统索引,据我们所知,只能在少于500万个图数据库上进行搜索。
已完成算法理论和技术的软件开发。针对各种输入数据分布的优化一直在进行中"