当今大数据时代有着海量的数据可供分析、挖掘,用以为人们进行各种活动提供更多的便利。随着对数据利用的增多,数据质量问题逐渐受到人们的重视。因此,如何修复已产生质量问题的数据便成了一个重要的研究方向。已有的数据修复方法大多基于某种约束规则,但都会造成无法准确描述所修复数据集特点的问题。本发明能够有效提高数据修复的准确性以及数据修复的运行效率。
本发明提供一种基于近邻的数据修复方法,包括:基于数据点的全部属性,通过计算数据点在全属性空间上的K近邻距离,检测全属性空间上的异常数据点;基于所述全部属性中的给定部分属性,通过计算所述异常数据点在给定部分属性子空间上的K近邻距离并进行数据异常判断,确定所述异常数据点的正常属性;基于所述异常数据点的正常属性,利用给定运算方式,计算所述异常数据点的异常属性修复值,进行所述异常数据点的修复。
天谋科技由 Apache IoTDB 核心团队创立,团队聚焦大数据底层技术软件研发,针对企业组建物联网大数据平台时所遇到的数据体量大、采样频率高、数据乱序到达、分析需求多、存储与运维成本高等多种问题,为企业提供海量时序数据管理的高效解决方案。创始团队由 Apache(国际最大开源软件基金会)旗下 IoTDB、PLC4X 两大开源物联网项目的发起人和核心开发者组成,汇集了来自清华大学、UC Berkeley、微软、德国弗劳恩霍夫协会(Fraunhofer-Gesellschaft)、德国法兰克福能源集团等一批数据库核心技术科学家和工业资深专家,拥有十几年研究和服务工业用户的经验。在时序数据管理领域,团队成员拥有中国、美国、欧洲等发明专利30余项,并在 ICDE, SIGMOD, VLDB 等数据库顶级会议上发表论文多篇。
评价单位:“科创中国”开源产业科技服务团 (中国通信学会)
评价时间:2022-11-18
综合评价
该成果对于物联网工业场景下,企业如何更好的管理由工业场景产生的时序数据有一定的引领性作用,技术创新性很强,目标市场处于成长市场,发展空间大。
查看更多>