基于通用数据的敏感度智能识别方法研究
价格 双方协商
地区: 贵州省 贵阳市 云岩区
需求方: 贵州***公司
行业领域
电子信息技术,计算机及网络技术,信息安全技术
需求背景
自党的十九届四中全会将数据列为新的生产要素,数据赋能数字经济快速发展。党和国家高度重视数据要素的价值激活和产业赋能,“数字中国”和“网络强国”的建设不断推进,数据在政务、交通等各领域持续深入应用,增强了对数据安全的迫切需求。习近平总书记指出,安全是发展的前提,发展是安全的保障。《网络安全法》《数据安全法》和《个人信息保护法》的相继实施,要求铁路等关键信息基础设施要增强数据安全防护能力,落实数据分类分级制度,强化数据自主安全可控保障能力。为此,对敏感数据进行自动化、智能化、精准化识别与分类,成为数据安全保障的基础性技术。
铁路作为重要的交通运输方式,经过多年的信息化、数字化建设,积累了基础设施运营与管理、线路设备控制与车辆调度、重要设施位置与通信、个人购票与行程等海量数据,数据安全和可控性更是至关重要。在构建铁路数据分类分级、自主可控安全防控体系中,如何精准地识别铁路敏感数据,是铁路行业数据安全治理和数据要素化进程中面临的重要问题。
目前,国内外围绕个人信息识别、结构化敏感数据识别与分级分类等领域,已经开展了许多相关研究,初步形成了以正则表达式、模式匹配、信息量化等不同路径的技术方法。但是,一方面,这些方法还尚未形成完善的体系,不能支撑大规模异构的敏感数据智能化、自动化、精准化识别;另一方面,这些方法仅适用于某些应用场景,无法直接适应铁路的各类场景的敏感数据识别。为此,面对铁路领域海量异构多源数据的分级分类安全治理需求,迫切需要更为智能化的算法来进行行业特征的标注提取,构建满足业务特征的数据敏感度识别方法,并以此位基础,结合铁路敏感数据的产生、存储、流转、应用等场景的时空特征属性,构建敏感数据热力图谱,形成铁路敏感数据识别与管控可视化技术体系,以支撑高铁数据服务的安全可控。
需解决的主要技术难题
通用敏感数据涉及个人信息、业务数据、管理与运营数据等多场景、多业务、多层次异构数据,研究通用数据的敏感度智能识别能方法能探究敏感数据识别的一般理论方法与模型,形成有理论体系支撑的敏感数据智能识别技术。
1. 研究基于模式识别规则的敏感数据识别技术,提出面向非关联性的一般性个人信息、业务敏感数据的识别方法,支撑结构化、非结构化的内嵌典型敏感数据识别;
2. 研究基于信息论的敏感属性识别模型,利用信息熵、自信息、互信息以及模糊信息等方法构建不同敏感程度的敏感属性识别方法,支撑大规模结构化数据的敏感属性识别;
3. 研究基于规则定义的敏感数据识别方法,通过逻辑规则、语义规则等理论,构建通用数据的敏感数据自定义规则、关联规则,形成数据敏感度识别规则库,支撑业务关联的敏感度识别技术;
4.研究基于数据血缘和机器学习的关联数据敏感度识别方法,支撑大规模数据高关联以及非结构化的敏感度识别与分级模型。
期望实现的主要技术目标
1. 提出基于信息论的敏感属性识别模型3个以上
2. 利用信息熵、自信息、互信息以及模糊信息等方法构建不同敏感程度的敏感属性识别方法5个以上,支撑10种大规模结构化数据的敏感属性识别;
3. 提出基于规则定义的敏感数据识别方法5个以上;
4. 构建通用数据的敏感数据自定义规则、关联规则3种以上;
5.提出以敏感信息量化为核心,模式识别、关联规则、数据血缘、机器学习为支撑的体系化高维关联数据敏感度量化与识别方法5种以上。
处理进度