面向图联邦学习分布式图数据集的结构熵异质性度量方法
价格 双方协商
地区: 贵州省 贵阳市 云岩区
需求方: 贵州***公司
行业领域
电子信息技术,计算机及网络技术
需求背景
数据作为新的生产要素,具有重要的经济和战略价值,对国家、政府、企事业单位和个人都尤为重要。在现实中,社交网络、车联网、银行保险、电信、生物医药等行业积累了大量的图数据,这些图数据能够丰富表达不同实体间的关联关系,具有巨大的商业、社会价值。特别是,图机器学习的提出和深入研究,加速了图数据应用推广,其在推荐系统、社交网络、交通预测、蛋白质合成等领域得到了大规模应用。然而,海量图数据通常存放在不同的实体中,需要联合多源数据以发挥更大价值,如利用不同医药企业的生物蛋白图数据联合开发新型药物,利用不同电信运营商的通信网络数据联合识别电信诈骗。由于GDPR、《数据安全法》等监管要求,以及图数据中包含大量商业秘密和个人隐私,不同图数据拥有者之间无法直接将原始数据相互共享。因此,研究能够对分布式大规模图数据进行安全高效聚合的模型和方法具有重要的理论和实践价值。
需解决的主要技术难题
图联邦学习面临的主要问题之一是分布式图数据集的异质性问题,这一问题导致了图联邦学习相比于传统联邦学习而言,其训练的模型效用不高。面对这一问题,其基础性困境便是如何对横向联邦学习、纵向联邦学习等不同模式的分布式图数据集的异质性进行合理化定义,并进行有效度量,探究异质性对图联邦学习效用的影响机理。、
针对该问题,首先,研究分布式图数据的差异性特征,寻求其异质的内在规律,通过等工具研究图数据的异质性形式化定义;其次,研究横向纵向图联邦学习的训练数据集的结构特征,分别对不同模式的图联邦学习训练数据集的异质性进行量化,研究图数据异质性的量化方法和量化模型;再次,研究分布式图数据异质性对横向/纵向图联邦学习的训练效用的影响变化规律,探究图联邦学习效用与训练数据集异质性的内在联系机理。
期望实现的主要技术目标
1. 构建面向图联邦学习分布式图数据集的结构熵异质性度量方法1种以上
2. 为体系性地量化分布式图数据的异质性的理论与技术模型各1套;
3.探究图联邦学习效用与训练数据集异质性的内在联系机理5种以上;
处理进度