_科创中国

一种用于超级计算机的多层级资源柔性配置方法

成果类型：: 发明专利

发布时间: 2023-09-27 11:02:52

科技成果产业化落地方案

方案提交机构：“科创中国”超级算力应用创新科技服务团| 李学智 | 2023-11-26 09:55:19

成果简介技术亮点应用前景团队概括产生的效益转化方式

本发明涉及一种用于超级计算机的多层级资源柔性配置方法，包括以下步骤：为作业分配超级计算机的P0个节点；计算在执行N个任务{T1, T2, ..., TN}的过程中到达M个断点{B1, B2, ..., BM}的对应的初始预期时间计算当执行任务Tj后到达任务Tj与任务Tj+1之间的断点Bi处的实际时间与初始预期时间的差值当时，为剩余的N‐j个未执行任务{Tj+1, Tj+2, ..., TN}分配P1个计算节点并重新计算到达剩余的M‐i个断点{Bi+1, Bi+2, ..., BM}的对应的第一修正预期时间本发明的方法可以在多个层级对超级计算机的资源进行柔性配置。

一种用于超级计算机的多层级资源柔性配置方法，包括以下步骤：步骤S100，获得作业，所述作业包括N个任务{T1,T2,...,TN}和M个各自设于任务之间的断点{B1,B2,...,BM}；为该作业分配超级计算机的P0个节点；计算在执行N个任务{T1,T2,...,TN}的过程中到达M个断点{B1,B2,...,BM}的对应的初始预期时间其中N、M和P0均为自然数，并且M＞N；步骤S200，计算当执行任务Tj后到达任务Tj与任务Tj+1之间的断点Bi处的实际时间与初始预期时间的差值根据该作业的算法复杂度和本次运行的数据量，或者根据该作业的历史运行结果和本次运行的数据量，计算需要为该作业的本次运行分配的节点的个数P0，以及计算在执行N个任务{T1,T2,...,TN}的过程中到达M个断点{B1,B2,...,BM}的对应的初始预期时间

超级计算机是指多个计算节点组合起来的能平行进行大规模计算或数据处理的计算机，也称为并行计算机，是计算机中功能最强、运算最快、存储量最大的一类，多用于国家高科技领域和尖端技术研究，是一个国家科技发展水平和综合国力的重要体现。

目前，用户向超级计算机提交作业时，需要自行指定所需的各种资源，例如运行作业所需的超级计算机的存储空间、节点数、核数等。通常，用户根据经验或者小量数据试运行的结果估计所需的资源，因此往往偏差较大。如果请求的资源不足，作业可能因超时、溢出等原因而终止，无法得到期望的结果；然而，如果请求的资源过多，用户就要为此付出额外的成本，并且浪费了宝贵的超算运算能力。因此，如何在提交作业以及作业运行时，为作业指定适量的资源，成为亟待解决的问题。本成果能解决以上问题。

本发明专利由国家超级计算天津中心核心团队研发设计完成，成员包括孟祥飞、康波、李健增、刘光明、菅晓东、雷秀丽、孙华文、马庆珍。国家超级计算天津中心是2009年5月批准成立的首家国家级超级计算中心，部署有2010年11月世界超级计算机TOP500排名第一的“天河一号”超级计算机和“天河三号”原型机系统，构建有超算中心、云计算中心、电子政务中心、大数据和人工智能研发环境，是我国目前应用范围最广、研发能力最强的超级计算中心,为全国的科研院所、大学、重点企业提供了广泛的高性能计算、云计算、大数据、人工智能等高端信息技术服务。

利用本发明的方法，在作业执行前，可以根据历史数据尽可能准确地为作业初始分配适当的资源；在作业执行中，可以根据作业的实际执行情况，也即超过或低于预期进度的情况，动态地分配或回收资源，从而实现在多个层级对超级计算机的资源进行柔性或弹性配置，在充分保障作业按时完成的的情况下，尽可能地减少超级计算机资源的占用。

该成果拟通过技术开发、技术许可等方式进行成果转化。