您所在的位置: 成果库 一种大规模图结构数据处理方法、装置和系统

一种大规模图结构数据处理方法、装置和系统

成果类型:: 发明专利

发布时间: 2022-11-28 15:26:18

科技成果产业化落地方案
方案提交机构:天津市滨海新区| 郝建平 | 2022-12-05 15:20:13
本发明公开了一种大规模图结构数据处理方法、装置和系统,以提高数据计算效率并增强系统运行的可靠性。所述方法包括:从节点将图结构数据读取至内存;对内存中的图结构数据进行预处理,得到图结构数据中相邻顶点处于同一数据片的至少一个数据片;将预处理所得至少一个数据片映射至从节点;从节点采用迭代算法对映射至从节点的数据片进行计算。由于相邻顶点的信息映射至同一从节点而不是不同从节点,如此,从节点采用迭代算法对映射至从节点的数据片进行计算时,无需与其他从节点进行通信,由此减少了通信量,降低对集群内带宽资源的需求,并且提高了集群系统及其节点的计算效率。
一种大规模图结构数据处理方法,其特征在于,所述方法包括:从节点将图结构数据读取至内存,所述从节点将图结构数据读取至内存包括:首先打开指定文件,设定内存地址,将文件内容按行或用户自定义的方式读取到预设的位置,其中,从文件读取到的内容需要解析成可计算的格式;对所述内存中的图结构数据进行预处理,得到所述图结构数据中相邻顶点处于同一数据片的至少一个数据片,针对大规模图结构数据,对所述内存中的图结构数据进行预处理时,多个从节点同时执行图结构数据的预处理;将所述预处理所得至少一个数据片映射至从节点;从节点采用迭代算法对所述映射至从节点的数据片进行计算。

图(Graph)是一种由顶点的集合和顶点之间的关联关系即边的集合共同形成的数 据结构。图也可以称之为网络,实际应用中很多结构都可以转化为图的方式表达出来,例 如,矩阵,其每一行每一列对应一个顶点,行与列的交叉处其值不为零时认为有边存在,而 边的权重为该值的大小;再如,城市地图,每一个城市(或居民地址)为一个顶点,不同城市 (或居民地址)之间相连的路线称之为边。图结构是一种抽象数据结构,是对象(顶点、节点) 及其关系(边)的模型。现实世界中,图结构数据的分布十分普遍,例如,社交网络中用户之 间的关系,蛋白质结构关联关系,科技文献体反映出的科学家之间的协作关系,以及因特网 (Internet)中以超链接体现出的网页之间的关系等等,这些都可以直接或间接地转化图结 构这一类数据结构。以顶点和边共同构成的集合组成的图结构一般可以真实贴近的表达现 实世界中的真实关联关系。对图结构数据的挖掘一般在识别对象关系模式、结构、检测异常 等等,并且,对图结构数据的分析与挖掘是当前的一个热点,高效率地处理大规模数据有着 十分迫切的需求。当前的有效方法一般建立在大规模处理平台之上,构建一个适应图结构 数据特性易扩展的平台框架是一个可取的技术方向。

中国科学院深圳先进技术研究院提升了粤港地区及我国先进制造业和现代服务业的自主创新能力,推动我国自主知识产权新工业的建立,成为国际一流的工业研究院。 深圳先进院目前已初步构建了以科研为主的集科研、教育、产业、资本为一体的微型协同创新生态系统,由九个研究平台,国科大深圳先进技术学院,多个特色产业育成基地、多支产业发展基金、多个具有独立法人资质的新型专业科研机构等组成。开展先进技术研究,促进科技发展。信息、电子、通讯技术研究新材料、新能源技术研究高性能计算、自动化、精密机械研究生物医学与医疗仪器研究相关学历教育、博士后培养与学术交流。

经过预处理后,图结构数据中相邻顶点处于同一数据 片,而预处理后得到的每个这种数据片是映射至一个从节点。由于相邻顶点的信息都尽其 所能地映射至同一从节点而不是不同从节点,如此,对于映射至同一从节点的相邻顶点,从 节点采用迭代算法进行计算时,无需与其他从节点进行通信,由此减少了通信量(尤其是数 据分片时设定的上限比较大时,即使仍然有部分相邻顶点的信息不能映射至同一从节点, 也能减少通信量),降低对集群内带宽资源的需求,并且提高了集群系统及其节点的计算效 率。

技术合作

以上对本发明实施例所提供的一种大规模图结构数据处理f法、装置和系统进行 了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例 的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员, 依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内 容不应理解为对本发明的限制。