您所在的位置: 成果库 一种在线配置Hadoop参数的方法和装置

一种在线配置Hadoop参数的方法和装置

成果类型:: 发明专利

发布时间: 2023-08-09 15:37:07

科技成果产业化落地方案
方案提交机构:天津市滨海新区| 宋学姮 | 2023-08-10 09:23:18
本发明公开了一种在线配置Hadoop参数的方法和装置,以实现系统运行的性能最优。该方法包括:对生产环境集群中作业的数据量进行监控;当监控到生产环境集群中作业的数据量大于预设值时,统计当前配置下k个节点在p个任务阶段中每个任务阶段完成作业的平均完成时间;分别计算集合与n个记录中作业特征属性集合的n个欧几里得距离,获得n个欧几里得距离中最小欧几里得距离对应的记录;在当前配置和最优配置的配置参数值不等时,将最优配置设置为数据量大于预设值的作业在生产环境集群中运行时使用的配置。本发明能够在可以接受的时间里将这些情况的作业运行调整到资源使用的平衡状态,提高了系统在线运行的平均效率,实现系统运行的性能最优。
一种在线配置Hadoop参数的方法,其特征在于,所述方法包括:作业监控器对生产环境集群中用户所提交作业的数据量进行监控;当监控到所述生产环境集群中用户所提交作业的数据量大于预设值时,所述作业监控器统计当前配置下所述生产环境集群的k个节点在p个任务阶段中每个任务阶段完成所述用户所提交作业的平均完成时间patphase,所述p个平均完成时间patphase构成集合PhaseAveTime,所述k为大于1的自然数;作业匹配器分别计算所述集合PhaseAveTime与配置数据库n个记录中作业特征属性集合JobAveTime的n个欧几里得距离,获得所述n个欧几里得距离中最小欧几里得距离对应的记录,所述配置数据库n个记录分别包含n个作业对应的n个训练作业在训练时获得的n个作业特征属性集合和n个完成所述n个训练作业时所使用的最优配置,所述n为大于1的自然数;资源平衡器比较所述当前配置和最优配置,若所述当前配置和最优配置的配置参数值不等,则将所述最优配置设置为所述数据量大于预设值的用户所提交作业在所述生产环境集群中运行时使用的配置

 Hadoop是Apache开源组织的一个分布式计算开源框架,被设计用来在由通用计算 设备组成的大型集群上执行分布式应用。基于Java语言构建的Hadoop框架实际上是一种分 布式处理大数据的平台,在近十年中,Hadoop已成为大数据革命的中心。

[0003] 然而,Hadoop目前有多达190个配置参数,其中,大约有20个参数对Hadoop应用程 序的效率有显著的影响。通过调整这些参数,可以进行四个方面的性能调优:CPU、内存、磁 盘1/0和网络进行优化

中国科学院深圳先进技术研究院提升了粤港地区及我国先进制造业和现代服务业的自主创新能力,推动我国自主知识产权新工业的建立,成为国际一流的工业研究院。 深圳先进院目前已初步构建了以科研为主的集科研、教育、产业、资本为一体的微型协同创新生态系统,由九个研究平台,国科大深圳先进技术学院,多个特色产业育成基地、多支产业发展基金、多个具有独立法人资质的新型专业科研机构等组成。开展先进技术研究,促进科技发展。信息、电子、通讯技术研究新材料、新能源技术研究高性能计算、自动化、精密机械研究生物医学与医疗仪器研究相关学历教育、博士后培养与学术交流。

 从上述本发明实施例可知,一方面,由于作业监控器是在监控到生产环境集群中 用户所提交作业的数据量大于预设值时才触发Hadoop参数的在线配置,而确定n个作业对 应的n个训练作业在训练时获得的n个作业特征属性集合和n个完成所述n个训练作业时所 使用的最优配置的计算节点不属于生产环境集群,其确定特征属性集合和最优配置的过程 是离线过程,因此在线配置Hadoop参数的过程不会影响实际系统的正常运行;另一方面,资 源平衡器经比较获知当前配置和最优配置的配置参数值不等时,将所述最优配置设置为数 据量大于预设值的用户所提交作业在所述生产环境集群中运行时使用的配置,因此,在数 据中心具有大量、连续运行的作业序列或数据计算分布不均匀的作业时,本发明实施例提 供的方法和装置能够适应作业调整的情况和数据计算分布不均匀的情况,在可以接受的时 间里将这些情况的作业运行调整到资源使用的平衡状态,提高了系统在线运行的平均效 率,实现系统运行的性能最优。

技术合作

 本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可 以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储 介质可以包括:只读存储器(R〇M,Read Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁盘或光盘等。

[0082]以上对本发明实施例所提供的在线配置Hadoop参数的方法和装置进行了详细介 绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只 是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发 明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理 解为对本发明的限制。