您所在的位置: 成果库 确定数据点的相似度的方法

确定数据点的相似度的方法

发布时间: 2023-06-28

来源: 科技服务团

基本信息

合作方式: 技术服务
成果类型: 发明专利
行业领域:
电子信息技术
成果介绍
提供一种确定数据点的相似度的方法,包括:(a)将所有数据点进行线性投影;(b)基于线性投影后的数据点来构建包括预定数量的具有预定深度的树的随机森林,其中,按照测试函数将随机森林的每个分割结点中的数据点分割到左孩子结点或右孩子结点;(c)获取每个数据点在每颗树上的分割路径;(d)根据获取的分割路径来确定数据点的哈希码,并根据确定的哈希码来确定数据点的相似度。在根据本发明示例性实施例的确定数据点的相似度的方法中,生成的哈希码的长度突破了原始数据点的维度的限制,比现有的哈希编码方法更加灵活,可以更好地应用于各种数据的相似性的比较。
成果亮点
一种确定数据点的相似度的方法,其特征在于,包括:(a)将所有数据点进行线性投影;(b)基于线性投影后的数据点来构建包括预定数量的具有预定深度的树的随机森林,其中,按照测试函数将随机森林的每个分割结点中的数据点分割到左孩子结点或右孩子结点;(c)获取每个数据点在每颗树上的分割路径;(d)根据获取的分割路径来确定数据点的哈希码,并根据确定的哈希码来确定数据点的相似度;针对随机森林的第s个分割结点中的第i个数据点,测试函数表示为如下定义的其中,表示随机森林的第s个分割结点中的第i个数据点的向量,和分别表示的第h1个分量和第h2个分量,sl和sr分别表示第s个分割结点的左孩子结点和右孩子结点,表示第s个分割结点中的所有数据点的di(h1,h2)的均值。
团队介绍
中国科学院深圳先进技术研究院提升了粤港地区及我国先进制造业和现代服务业的自主创新能力,推动我国自主知识产权新工业的建立,成为国际一流的工业研究院。 深圳先进院目前已初步构建了以科研为主的集科研、教育、产业、资本为一体的微型协同创新生态系统,由九个研究平台,国科大深圳先进技术学院,多个特色产业育成基地、多支产业发展基金、多个具有独立法人资质的新型专业科研机构等组成。开展先进技术研究,促进科技发展。信息、电子、通讯技术研究新材料、新能源技术研究高性能计算、自动化、精密机械研究生物医学与医疗仪器研究相关学历教育、博士后培养与学术交流。
成果资料
产业化落地方案
点击查看