本申请公开了干扰感知的GPU异构集群调度方法、系统及介质,其中,所述低噪声放大器包括:该干扰感知的GPU异构集群调度方法包括:从至少一个共享GPU组合中,获取最小干扰的目标共享GPU组合;对所述目标共享GPU组合采用贝叶斯优化寻找目标超参数组合,直到收敛;采用所述目标超参数组合运行目标深度学习负载,以实现调度算法的性能评估。本申请实施例提供的干扰感知的GPU异构集群调度方法,在上层应用层面,当前的GPU共享大多是针对与一种深度学习框架进行设计,未考虑不同框架实现的深度学习应用在不同参数下的运行时特征。
1.一种干扰感知的GPU异构集群调度方法,其特征在于,所述方法包括:
从至少一个共享GPU组合中,获取最小干扰的目标共享GPU组合;
对所述目标共享GPU组合采用贝叶斯优化寻找目标超参数组合,直到收敛;
采用所述目标超参数组合运行目标深度学习负载,以实现调度算法的性能评估。
2.根据权利要求1所述的方法,其特征在于,在从至少一个共享GPU组合中,获取最小干扰的目标共享GPU组合之前,所述方法还包括:
获取至少一个第一深度学习负载;
采用所述贝叶斯优化寻找所述至少一个第一深度学习负载的超参数组合;
采用每个第一深度学习负载的超参数组合,分别离线运行每个第一深度学习负载应用共享GPU,以得到至少一个性能干扰分数;
根据所述至少一个性能干扰分数,确定所述至少一个共享GPU组合对应的干扰。
- 干扰感知:通过监测GPU任务之间的干扰情况,分析任务之间的关系和干扰程度。
- 任务调度:根据干扰感知的结果,制定任务调度策略,将任务合理地分配到GPU异构集群中的不同节点上,以减少干扰并提高系统性能。
- 动态调整:根据实时的干扰感知情况,动态调整任务的分配和调度策略,以适应不同的工作负载和系统状态。
中国科学院深圳先进技术研究院提升了粤港地区及我国先进制造业和现代服务业的自主创新能力,推动我国自主知识产权新工业的建立,成为国际一流的工业研究院。 深圳先进院目前已初步构建了以科研为主的集科研、教育、产业、资本为一体的微型协同创新生AC态系统,由九个研究平台,国科大深圳先进技术学院,多个特色产业育成基地、多支产业发展基金、多个具有独立法人资质的新型专业科研机构等组成。开展先进技术研究,促进科技发展。信息、电子、通讯技术研究新材料、新能源技术研究高性能计算、自动化、精密机械研究生物医学与医疗仪器研究相关学历教育、博士后培养与学术交流。
系统:干扰感知的GPU异构集群调度系统由多个GPU节点、调度器和监控器组成。每个GPU节点负责执行特定的任务,调度器负责根据干扰感知结果制定任务调度策略,并将任务分配给合适的节点。监控器负责实时监测GPU任务之间的干扰情况,并将干扰感知结果反馈给调度器。
介质:干扰感知的GPU异构集群调度方法和系统通常需要使用一定的存储介质来存储任务调度策略、干扰感知结果和其他相关数据。常用的存储介质包括分布式文件系统、数据库或内存缓存等。
技术转让
干扰感知的GPU异构集群调度方法、系统和介质可以提高GPU集群的性能和效率。通过对GPU任务之间的干扰进行感知和分析,可以合理地调度任务,减少干扰,提高整体系统的吞吐量和响应时间。这对于大规模的GPU计算和数据处理任务非常重要,可以提高系统的可扩展性和可靠性。