成果介绍
本发明公开了一种在线配置Hadoop参数的方法和装置,以实现系统运行的性能最优。该方法包括:对生产环境集群中作业的数据量进行监控;当监控到生产环境集群中作业的数据量大于预设值时,统计当前配置下k个节点在p个任务阶段中每个任务阶段完成作业的平均完成时间;分别计算集合与n个记录中作业特征属性集合的n个欧几里得距离,获得n个欧几里得距离中最小欧几里得距离对应的记录;在当前配置和最优配置的配置参数值不等时,将最优配置设置为数据量大于预设值的作业在生产环境集群中运行时使用的配置。本发明能够在可以接受的时间里将这些情况的作业运行调整到资源使用的平衡状态,提高了系统在线运行的平均效率,实现系统运行的性能最优。
成果亮点
一种在线配置Hadoop参数的方法,其特征在于,所述方法包括:作业监控器对生产环境集群中用户所提交作业的数据量进行监控;当监控到所述生产环境集群中用户所提交作业的数据量大于预设值时,所述作业监控器统计当前配置下所述生产环境集群的k个节点在p个任务阶段中每个任务阶段完成所述用户所提交作业的平均完成时间patphase,所述p个平均完成时间patphase构成集合PhaseAveTime,所述k为大于1的自然数;作业匹配器分别计算所述集合PhaseAveTime与配置数据库n个记录中作业特征属性集合JobAveTime的n个欧几里得距离,获得所述n个欧几里得距离中最小欧几里得距离对应的记录,所述配置数据库n个记录分别包含n个作业对应的n个训练作业在训练时获得的n个作业特征属性集合和n个完成所述n个训练作业时所使用的最优配置,所述n为大于1的自然数;资源平衡器比较所述当前配置和最优配置,若所述当前配置和最优配置的配置参数值不等,则将所述最优配置设置为所述数据量大于预设值的用户所提交作业在所述生产环境集群中运行时使用的配置
团队介绍
中国科学院深圳先进技术研究院提升了粤港地区及我国先进制造业和现代服务业的自主创新能力,推动我国自主知识产权新工业的建立,成为国际一流的工业研究院。 深圳先进院目前已初步构建了以科研为主的集科研、教育、产业、资本为一体的微型协同创新生态系统,由九个研究平台,国科大深圳先进技术学院,多个特色产业育成基地、多支产业发展基金、多个具有独立法人资质的新型专业科研机构等组成。开展先进技术研究,促进科技发展。信息、电子、通讯技术研究新材料、新能源技术研究高性能计算、自动化、精密机械研究生物医学与医疗仪器研究相关学历教育、博士后培养与学术交流。
成果资料
产业化落地方案