您所在的位置: 成果库 一种基于联邦增量学习的工业物联网数据共享方法

一种基于联邦增量学习的工业物联网数据共享方法

成果类型:: 发明专利

发布时间: 2022-11-25 14:17:21

科技成果产业化落地方案
方案提交机构:“科创中国”工业互联网产业科技服务团| 窦路婷 | 2022-11-26 21:40:40
成果为一种基于联邦增量学习的工业物联网数据共享方法,方法有效解决工业互联网新增数据量大、工厂子端数据量不均衡等问题,首先针对工厂子端数据量不均衡问题,提出联邦优选子端算法以避免弱势工厂子端数据被覆盖,其次,针对工厂子端大量新增数据与原行业联合模型融合问题提出联邦增量学习算法。本方法既考虑了联合训练中数据分布不均衡问题又兼顾了对新增状态数据的融合,满足了基于工业增量数据的行业联合模型持续优化的需求。
处于异构环境的每个工厂子端在本地训练时会出现模型性能差异,为了平衡工厂子端之间的性能差异,传统联邦学习会让部分子端阻塞等待,从而导致整体训练效率的损失。此外,由于工业大数据快速产生的海量增量以及数据强时序性等特点,使得如何减少联邦学习环境中异构性因素的影响以及如何在增量学习训练过程中平衡训练效率和模型精度,是工业领域联邦学习研究中亟待解决的难题,对我省乃至我国智能制造具有重要意义和价值。本成果提出基于联邦增量学习的工业物联网数据共享方法。该方法首先针对联邦学习子端数据统计异质性及实时新增数据量大的问题,拟提出本地迭代轮次自适应调整模型,即通过调整初始模型,根据不同训练状态自适应调整本地更新轮次,平衡模型训练速度和收敛精度的关系;然后针对子端实时增量数据的全局模型持续优化问题,拟提出基于增量加权聚合的联邦学习模型,通过联邦优选子端算法动态调整参与子集,进而利用联邦增量学习算法计算子端增量加权,从而使新增状态数据与全局模型快速融合,从而解决由于工业复杂异构环境导致的联邦增量学习效率和精度的瓶颈问题。

随着工业数字化转型的发展,工厂里越来越多的数据被存储,如何利用这些数据持续提高“大数据驱动的生产能力”是目前的核心问题。虽然工业数据量大,但是由于商业隐私性,难以统一数据进行模型训练。联邦学习能够让多方在保证数据隐私安全的条件下联合训练模型,因此可以联合利用更多分散的数据源,突破数据缺乏的瓶颈,具有极高的研究前景和应用价值。然而,由于工业大数据来源于不同领域、不同工厂,其环境具有强烈的异构性,同时工业大数据的增量数据产生速度快、数据量大,传统的联邦学习在面对上述工业大数据时,存在异构环境中子端训练不均衡及海量的增量数据会造成联邦全局模型训练效率和收敛精度偏低的问题。本成果提出了面向异构工业大数据的联邦增量学习方法,主要包括本地迭代轮次自适应调整模型和基于增量加权聚合的联邦学习模型,以解决面向工业异构及增量环境的联邦学习高性能模型训练,该项目是智能制造的卡脖子问题,其突破有利于中国工业沉淀行业级别的工业知识模型。

河北工业大学是一所工学并举、多学科协调发展的国家“211工程”重点建设的省属骨干大学,是国家“双一流”重点建设高校。河北工业大学人工智能与数据科学学院团队在工业数据计算、工业信息融合与协同等领域深入研究多年,先后荣获河北省科技进步一等奖、天津市科技进步二等奖等多项奖励。团队核心成员从2008年开始共同开展工业智能制造领域的研究,在数字化转型、智能制造、工业大数据建模、复杂系统等领域积累了领先的研究成果,长期致力于智慧工厂规划设计、数字化平台开发、数字化车间集成等领域的研究,团队相关研究成果在中信戴卡等国内外知名企业和项目均实现有效转化,为此次成果转化积累了科技成果与企业需求精准对接的经验,助力成果落地。

本成果在天津松山环保科技有限公司进行的落地转化,转化为成果团队带来170万元的经济效益,帮助天津松山环保科技有限公司分析各产线的异构数据组成节点和环节,构建异构产线子端的评估模型;识别多产线协作中提供价值的行为主体,建立多产线协同的数据生态价值链,判别多主体协同对行业模型的价值影响,建立以行业收益最大化和产线收益公平化为目标的多工厂协同训练机制。同时基于网状拓扑组织模型、联合训练模型等建立对行业贡献的多产线网络的搭建方法,指导松山环保如何使用拓扑特征度量建立几何度量模型,来描述工厂数据价值链的可持续性、稳定性等重要特征属性和指标,预计为松山环保新增3000万元经济效益。

技术成果转让,技术合作。希望在工业物联网方向推动企业技术创新发展,实现预计的3000万元经济增效。