一种大规模图结构数据处理方法、装置和系统
成果类型:: 发明专利
发布时间: 2022-11-28 15:26:18
图(Graph)是一种由顶点的集合和顶点之间的关联关系即边的集合共同形成的数 据结构。图也可以称之为网络,实际应用中很多结构都可以转化为图的方式表达出来,例 如,矩阵,其每一行每一列对应一个顶点,行与列的交叉处其值不为零时认为有边存在,而 边的权重为该值的大小;再如,城市地图,每一个城市(或居民地址)为一个顶点,不同城市 (或居民地址)之间相连的路线称之为边。图结构是一种抽象数据结构,是对象(顶点、节点) 及其关系(边)的模型。现实世界中,图结构数据的分布十分普遍,例如,社交网络中用户之 间的关系,蛋白质结构关联关系,科技文献体反映出的科学家之间的协作关系,以及因特网 (Internet)中以超链接体现出的网页之间的关系等等,这些都可以直接或间接地转化图结 构这一类数据结构。以顶点和边共同构成的集合组成的图结构一般可以真实贴近的表达现 实世界中的真实关联关系。对图结构数据的挖掘一般在识别对象关系模式、结构、检测异常 等等,并且,对图结构数据的分析与挖掘是当前的一个热点,高效率地处理大规模数据有着 十分迫切的需求。当前的有效方法一般建立在大规模处理平台之上,构建一个适应图结构 数据特性易扩展的平台框架是一个可取的技术方向。
经过预处理后,图结构数据中相邻顶点处于同一数据 片,而预处理后得到的每个这种数据片是映射至一个从节点。由于相邻顶点的信息都尽其 所能地映射至同一从节点而不是不同从节点,如此,对于映射至同一从节点的相邻顶点,从 节点采用迭代算法进行计算时,无需与其他从节点进行通信,由此减少了通信量(尤其是数 据分片时设定的上限比较大时,即使仍然有部分相邻顶点的信息不能映射至同一从节点, 也能减少通信量),降低对集群内带宽资源的需求,并且提高了集群系统及其节点的计算效 率。
技术合作
以上对本发明实施例所提供的一种大规模图结构数据处理f法、装置和系统进行 了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例 的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员, 依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内 容不应理解为对本发明的限制。