成果介绍
本发明涉及一种大规模向量场数据处理方法,包括如下步骤:从外部存储设备中将向量场数据逐一读取至内存;利用流式K-means算法对内存中的向量场数据进行处理并得到若干个聚类中心;构建聚类中心的邻居关系;根据聚类中心的邻居关系对聚类中心进行层次聚类。上述大规模向量场数据处理方法,从外部存储设备中将向量场数据逐一读取至内存,避免了将所有的向量场数据一次性全部载入内存,而利用流式K-means算法对内存中的向量场数据进行处理以及根据聚类中心的邻居关系对聚类中心进行层次聚类也极大地降低了聚类的时间复杂度,因此上述大规模向量场数据处理方法对计算机的性能、内存要求均比较低,并且能够较快地处理大规模向量场数据。
成果亮点
一种大规模向量场数据处理方法,其特征在于,包括如下步骤:从外部存储设备中将向量场数据逐一读取至内存;利用流式K-means算法对内存中的向量场数据进行处理并得到若干个聚类中心,包括:(1)、从内存中读取一个向量场数据;(2)、判断所述向量场数据是否为读取的第一个向量场数据,如果是,则将所述向量场数据作为新的聚类中心,如果不是,则选定一随机投影向量,将每个聚类中心分别与所述随机投影向量相乘得到一个数组,并将所述数组中的所有元素按大小排序,得到一个有序数组,将向量场数据与所述随机投影向量相乘得到向量场数据投影值,在有序数组中查找出与所述向量场数据投影值最接近的元素,找出与所述向量场数据相似度最高的聚类中心;(3)、判断所述向量场数据和与所述向量场数据相似度最高的聚类中心的相似度是否在预设阈值范围之内,如果是,则将所述向量场数据附属于与所述向量场数据相似度最高的聚类中心,如果不是,则将所述向量场数据作为新的聚类中心;(4)、重复步骤(1)、步骤(2)和步骤(3),直至内存中的向量场数据被全部读取完;构建聚类中心的邻居关系;根据聚类中心的邻居关系对聚类中心进行层次聚类。
团队介绍
中国科学院深圳先进技术研究院提升了粤港地区及我国先进制造业和现代服务业的自主创新能力,推动我国自主知识产权新工业的建立,成为国际一流的工业研究院。 深圳先进院目前已初步构建了以科研为主的集科研、教育、产业、资本为一体的微型协同创新生态系统,由九个研究平台,国科大深圳先进技术学院,多个特色产业育成基地、多支产业发展基金、多个具有独立法人资质的新型专业科研机构等组成。开展先进技术研究,促进科技发展。信息、电子、通讯技术研究新材料、新能源技术研究高性能计算、自动化、精密机械研究生物医学与医疗仪器研究相关学历教育、博士后培养与学术交流。
成果资料
产业化落地方案