您所在的位置: 成果库 Oracle与hive双语言调度结合构建高效数据调度,赋能云改数转

Oracle与hive双语言调度结合构建高效数据调度,赋能云改数转

发布时间: 2022-12-01

来源: 试点城市(园区)

基本信息

合作方式: 技术服务
成果类型: 新技术
行业领域:
电子信息技术,通信技术
成果介绍
在数据上云之前,所有的数据来源与数据调度任务都是基于oracle库,并且建立了完善的数据抽取流程,如果说oracle是稳定的数据库,那么hive就是数据仓库,hive本身没有存储和计算能力,完全依赖于hdfs和MapReduce进行分布式存储和并行计算,由此可见oracle的优势是稳定、少量的特定条件的数据的访问,数据库可以有很高的效率,较低的延迟;hive的优势是处理大数据,并且开发者无法对数据源进行删改操作,可保证数据的安全性。当面对两种数据源如何更大发挥他们的优势呢,我们依托广西电信能力开发门户大数据平台,将两种数据源的etl调度相结合,实现高效数据调度。
成果亮点
Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能,基于这个原理可将本地oracle数据集市与全区的hive数据仓库打通,从而可将两边数据交互。 讲两种数据源结合时,究竟是基oracle的etl调度更高效还是基于hive的etl调度更高效,我们将以十万条的数据量来进行试验:首先比较生成数据基础表(十万条)的生成时间,oracle数据表为A表,hive数据表为B表,十万的数据量来源三个数据表,在三个数据表都同时建立分区的前提下,A表生成时间为20分钟,B表生成时间为22分钟;比较etl调度时间,将A、B表的代码放入两种调度中执行,A表需要15分钟生成,而B表仅需5分钟生成,由此可见基于hive的etl调度更为高效Hive数据仓库对于大规模的数据量非常有优势,由此可见,将量少而稳定或者已经生成的数据在oracle执行后通过数据交互推送至hive的etl调度在进行大数据处理,可高效赋能日常数据抽取及分析。目前已经有十个数据分析项目运用上Oracle与hive双语言调度结合流程,高效赋能与存量用户分析,以及快速抽取增量用户数据
团队介绍
该团队由 中国电信股份有限公司柳州分公司专业技术人员组成,在机械仪器领域专业性强,研究方向大胆创新、发明成果实用有效。
成果资料