确定数据点的相似度的方法
成果类型:: 发明专利
发布时间: 2023-06-28 10:15:24
随着网络上大量的图像和其它媒介数据的产生,近似最近邻搜索变得越来越重 要。它现在已成为机器学习中最重要的问题之一,已经被用于许多计算机视觉任务,比如图 像检索。在这个领域内,基于哈希的近似最近邻是一个普遍被使用的方法。这种方法把高维 的数据点编码成紧凑的二值码,这些二值码保留了高维数据点的相似性,而且可以让内存 容下更大的数据集,同时能够实现高效率的相似性搜索。
[0003] 大量的用于学习相似性保留的二值码方法已经被提出。在这些方法中,位置敏感 哈希(LSH)是最流行的哈希编码方法之一,
本发明的示例性实施例在于提供一种确定数据点的相似度的方法,以解决至少一 个上述的问题。在根据本发明示例性实施例的确定数据点的相似度的方法中,生成的哈希码的长 度突破了原始数据点的维度的限制,可以通过增加随机森林中树的数量或者增长树的深度 来扩展哈希码的长度,比现有的哈希编码方法更加灵活,可以更好地应用于各种数据的相 似性的比较。
技术合作
由于树形结构的使用,根据本发明示例性实施例的方法生成哈希码的速度非常 快,使用未优化的C++代码,生成一个查询点的哈希码大约花费0.1ms的时间。若使用现代 CPU上的并行处理,这个时间可以进一步缩短。分别使用512个、64个投影向量做投影运算大 约消耗Ims和0.1ms的时间。生成512-比特的二值码,根据本发明示例性实施例的方法生成 哈希码的时间大约为〇. 2ms,而LSH大约消耗了 Ims,根据本发明示例性实施例的方法比LSH 更尚效。
[0072] 应注意,本发明的以上各个实施例仅仅是示例性的,而本发明并不受限于此。本领 域技术人员应该理解:在不脱离本发明的原理和精神的情况下,可对这些实施例进行改变, 其中,本发明的范围在权利要求及其等同物中限定。