成果介绍
本发明提供了一种hadoop集群运行ETL流程的方法,包括:
根据ETL流程中的reduce节点,将ETL流程分解为一个或多个MRWork;其中,每个MRWork的组件在一个map reduce中运行;
对于每个MRWork,MR Job通过自定义DelegateInputFormat,分别将MRWork的每个数据源都拆分为多个分片数据源;
MR Job通过自定义DelegateMapper重写Mapper的run方法,来并发运行MRWork中的mapper graph;其中,MRWork中的mapper数由MRWork的数据源总分片数决定;
MR Job通过自定义DelegateReducer重写Reducer的run方法,来并发运行MRWork中的reducer graph;其中,MRWork中的reducer数根据reduce节点和/或hadoop集群可申请container数进行设置。
成果亮点
本发明涉及数据处理技术领域,具体涉及一种hadoop集群运行ETL流程的方法及装置,其中方法包括:根据ETL流程中的reduce节点将流程分解为一个或多个MRWork;将MRWork的数据源进行分片;MR Job自定义DelegateMapper来运行MRWork中的mappergraph,mapper数由MRWork的数据源总分片数决定;MR Job自定义DelegateReducer来运行MRWork中的reducer graph。本发明实现了基于hadoop的分布式ETL框架,数据源拆分为多个分片数据源,从而把流程分解为可并发运行的多个子流程,可极大提高流程并发处理能力。
团队介绍
华中科技大学(Huazhong University of Science and Technology),简称华中大、华科大 ,位于湖北省武汉市,是中华人民共和国教育部直属的综合性研究型全国重点大学、位列国家“双一流”“985工程”“211工程”、入选“强基计划”“111计划”、卓越工程师教育培养计划、卓越医生教育培养计划、国家大学生创新性实验计划、国家级大学生创新创业训练计划、国家建设高水平大学公派研究生项目、国家级新工科研究与实践项目、基础学科拔尖学生培养计划***,是学位授权自主审核单位、全国深化创新创业教育改革示范高校、一流网络安全学院建设示范项目高校、中国政府奖学金来华留学生接收院校、教育部来华留学示范基地,为中欧工程教育平台成员和医学“双一流”建设联盟 、国际应用科技开发协作网 、全球能源互联网大学联盟成员。
成果资料
产业化落地方案