一种在线配置Hadoop参数的方法和装置
成果类型:: 发明专利
发布时间: 2023-08-09 15:37:07
Hadoop是Apache开源组织的一个分布式计算开源框架,被设计用来在由通用计算 设备组成的大型集群上执行分布式应用。基于Java语言构建的Hadoop框架实际上是一种分 布式处理大数据的平台,在近十年中,Hadoop已成为大数据革命的中心。
[0003] 然而,Hadoop目前有多达190个配置参数,其中,大约有20个参数对Hadoop应用程 序的效率有显著的影响。通过调整这些参数,可以进行四个方面的性能调优:CPU、内存、磁 盘1/0和网络进行优化
从上述本发明实施例可知,一方面,由于作业监控器是在监控到生产环境集群中 用户所提交作业的数据量大于预设值时才触发Hadoop参数的在线配置,而确定n个作业对 应的n个训练作业在训练时获得的n个作业特征属性集合和n个完成所述n个训练作业时所 使用的最优配置的计算节点不属于生产环境集群,其确定特征属性集合和最优配置的过程 是离线过程,因此在线配置Hadoop参数的过程不会影响实际系统的正常运行;另一方面,资 源平衡器经比较获知当前配置和最优配置的配置参数值不等时,将所述最优配置设置为数 据量大于预设值的用户所提交作业在所述生产环境集群中运行时使用的配置,因此,在数 据中心具有大量、连续运行的作业序列或数据计算分布不均匀的作业时,本发明实施例提 供的方法和装置能够适应作业调整的情况和数据计算分布不均匀的情况,在可以接受的时 间里将这些情况的作业运行调整到资源使用的平衡状态,提高了系统在线运行的平均效 率,实现系统运行的性能最优。
技术合作
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可 以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储 介质可以包括:只读存储器(R〇M,Read Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁盘或光盘等。
[0082]以上对本发明实施例所提供的在线配置Hadoop参数的方法和装置进行了详细介 绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只 是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发 明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理 解为对本发明的限制。