煤矿大数据平台数据接入与数据存储
发布时间: 2021-12-02
来源: 科技服务团
基本信息
本标准将对煤矿生产场景下各种类型的数据在大数据平台的接入和存储方面进行规范与约束。
主要涉及的技术内容包括:
(1)数据源接口规范
规范原始数据源的接入方式、接入认证方式、数据格式、采集频率、采集方式(采集时间点、推送或者拉取)、数据校验等内容。
(2)异构数据源的数据格式规范
规范基于JDBC驱动、文件传输、Web服务、REST服务等不同方式下的数据传输和交换格式;规范基于事务性的数据库、日志、流式等不同数据源的数据传输和交换格式;规范对关系数据库表、XML、JSON、EXCEL、CSV等数据格式的使用。
(3)格式转换与语义转换能力规范
规范上述不同数据格式之间的转换;规范空值、语义方面的使用与解析(如性别男、女规定为0、1等)。
(4)数据接入异常处理规范
规范格式错误、传输错误、校验错误等各种异常状况下的处理流程。
(5)数据集成处理规范
规范结构化数据集成ETL转换过程中数据的清洗、替换、去重、排序、拆分、合并等处理流程;规范数据的冲突与检测处理流程;规范半结构化数据、非结构化数据(流式数据)的集成处理过程。
(6)数据存储规范
对非结构化海量数据的分布式文件系统存储方式进行规范;对半结构化海量数据的NoSQL数据库存储方式进行规范;对结构化海量数据的分布式并行数据库存储方式进行规范;对基于对象的云存储和基于表的云存储方式进行规范;对煤矿行业不同类型大数据的存储方式、保存周期等进行规范。
通过对上述内容在煤炭行业大数据的各种应用场景进行分析和调研,力争使制定的标准在矿山行业逐步得到推广和应用。