您所在的位置: 试点城市(园区)> 新闻详情
点赞

走近超算“神威·太湖之光”

发布时间: 2021-07-29 10:59:26

25
1445

神威·太湖之光”

222.png

科学技术是第一生产力,创新是引领发展的第一动力。值此建党百年之际,为实地体验我国自主研发的科技实力,以“神威·太湖之光”超算平台为典范,2021年7月21日,清华大学博士生暑期社会实践江苏无锡高新区支队的同学们参观了国家超级计算无锡中心,并与在该中心进行社会实践的六位同学进行了深入的交流学习。

习总书记在两院院士讲话中提到,“着力推进面向重大需求的战略高技术研究,超级计算机连续10次蝉联世界之冠,采用国产芯片‘神威·太湖之光’获得高性能计算应用最高奖‘戈登·贝尔’奖……”。在863计划及其他科研项目推动下,我国超算技术在过去十余年间飞速发展:从“天河二号”问鼎世界第一超级计算机,到“神威·太湖之光”实现全部自主研发,我国的超算技术研发生动诠释了何为自主创新。2021年7月21日清晨,江苏无锡高新区支队的同学在国家超级计算无锡中心集合,开启了一段走近超算的科技创新之旅

WeChat Image_20210729105438.png

江苏无锡高新区支队同学在“神威·太湖之光”超算平台机房的合影

穿上防静电服和防尘鞋套,怀着期待与敬畏,同学们走进了“神威·太湖之光”机房。三组大型机柜呈“010”顺序摆放,“黝黑的外壳蕴藏着强劲的内心”。据介绍,机房占地约1000平方米,考虑到整体布局,“010”造型机柜中“0”是由20个机舱组成的运算设备,“1”是由8个机舱组成的网络设备。打开机柜柜门,繁密的运算单元井然有序地排列着,水冷管和光纤连接线也整齐分布。工作人员告诉我们,每个机舱有4组超节点,每组超节点有32块运算插件,每块插件有8个CPU。这些处理器构成了神威的“心脏”,而连接线和水冷管则是保证心脏正常工作的“血管网”。光纤连线由技术人员历时2个多月在夏季没有空调的情况下完成,全部加起来可达500公里。基于自主研发的核心技术,强劲有力的“心脏”和庞大的“血管网”源源不断地输送信息并带走热量,为神威超算的正常运行提供保障。在工作人员的讲解下,我们进一步了解了其背后的故事。

WeChat Image_202107291054381.png

机房内整齐排列的机舱

01

申威处理器:国产“重核”

“神威·太湖之光”是我国第一台全部使用国产处理器构建的世界排名第一超级计算机。自863计划支持我国超算研发以来,虽然屡屡取得成绩,但核心处理器设计制造技术在很长一段时间内仍受制于人。2015年4月,美国宣布对中国禁售高性能计算处理器“至强”(XEON)芯片。这一决定虽在短期内拖延了“天河二号”升级,但同时为我国“推进超算国产化战略”提供了新的动力。

与“天河二号”采用因特尔芯片不同,“神威·太湖之光”运算系统所采用的处理器为由我国高性能集成电路设计中心自主研制的国产“申威26010”众核处理器。该处理器每片包含4个核心,每个核心包含一个主处理器(MPE)和一个8*8的计算单元阵列(CPEs)。“神威·太湖之光”共安装40960个申威26010处理器,达到了峰值运算速度每秒12.54亿亿次、持续计算速度每秒9.3亿亿次的全球最强运算能力。

Image

机舱外展示的申威26010处理器样品

02

先进水冷技术:节能环保

与传统机房的风冷技术不同,神威系列超算平台采用了一种先进的水冷技术。通过在机舱内排布水冷管,及时带走机器高速运行产生的热量。这一技术不仅避免了风扇的噪音,还可减小风扇所需的巨大功耗、循环利用冷却水。据介绍,电力成本基本是全世界各超算中心最大的支出。一个超算平台的日耗电量相当于一个中小型城市的日耗电量。利用水冷系统,神威超算平台的耗电量大大降低,实现了环保经济。

在“神威·太湖之光”的机房内,除了环境风扇的声音,基本听不到任何噪音。透过地板上几块透明玻璃,我们还能看到脚下排布复杂的水管道。太湖水通过管道系统进入机舱带走热量,再回到管道中,循环流动。工作人员打开机舱门,同学们触摸了一下舱内的水冷管,惊奇地发现基本没有明显发热。

WeChat Image_202107291054382.pngWeChat Image_202107291054383.png

同学们认真聆听工作人员的讲解

03

充分利用,多面合作

在工作人员的带领下,我们参观了近年来重大成果电子展板。据悉,目前,基于“神威·太湖之光”超算平台的应用项目涉及气候气象、航空航天、新能源材料、高能物理、生物医药、先进制造等20多个应用领域;支持百余家单位,300个大型应用课题,完成200多万百万核心大型问题的求解任务。在平台已有项目中,22个应用规模达到整机水平,且有6个应用获“戈登·贝尔”提名,2个获奖。其中,由中科院软件所、清华大学、北京师范大学和国家超级计算无锡中心共同完成的“全球大气非静力云分辨模拟”项目凭借创新的并行求解方法荣获2016年度“戈登·贝尔”奖。


WeChat Image_202107291054384.png机房内的电子展板

在参观机房、聆听工作人员详细讲解后,同学们来到会议室与正在超算中心实践的同学们展开了深入交流。

交流项目#1

基于神威超算平台的蛋白质三维模型重构平台的搭建与研发

冷冻电镜技术(Cryo-EM)是研究细胞结构与功能的主要技术手段。该技术在2015年被国际顶尖杂志《自然》(Science)评为年度重要方法,在2017年获得诺贝尔化学奖。借助Cryo-EM技术可以深入探索微观结构,这对学术和工业发展都有重大意义,例如:研究生物大分子的结构图谱、结构与功能关系,病毒致病机理;攻克制药业、生物催化业的难题等。

Cryo-EM的核心是基于贝叶斯优化的三维重构方法。随着冷冻电镜领域分辨率需求的不断提高,百万级别的输入图片量以及复杂的多重循环迭代算法使得其对机器运算资源有极大需求,需要在模型分辨率与可接受计算时间中找到平衡。

WeChat Image_202107291054391.png

Cryo-EM三维重构技术流程示意图

Cryo-EM对算力的极大需求可以通过中国算力最强的超级计算机——神威太湖之光来解决。在神威的并行开发环境和MPI支撑环境中,运用并行程序模型,将复杂任务简单化,争取能对已有软件(如RELION、THUNDER等)实现标准化,利用国产异构系统的大量计算存储单元,协调完成大型任务调度。

WeChat Image_202107291054393.png

李则刚同学作为项目代表向大家介绍实践项目

交流项目#2

基于神威超算平台的深度学习算法库与编译器中间表示的设计与优化

我国在人工智能行业的基础生态积累很少,最近人工智能芯片发展迅速,软件生态作为其支撑非常重要。深度学习编译器是人工智能软件生态中极为重要的一环。

本项目基于申威平台及其软件生态,在「运算」层开发可以自动优化并构建高性能神经网络模型的深度学习编译器。弥补国产深度学习软件生态的不足。

WeChat Image_202107291054394.png

项目总体架构

深度学习编译器的核心是编译用于描述神经网络结构的 DSL 语言,并将其转化为高性能的可在国产申威平台高效运行的深度学习模型(可执行的机器码)。

这个过程涉及神经网络模型的自动性能优化,其核心是使用中间层表示 (IR) 描述不同的粒度的算子,并结合申威平台的计算机体系结构特点进行对应的自动优化。

WeChat Image_202107291054396.png

王昕同学作为项目代表介绍实践项目


“一代人有一代人的奋斗,一个时代有一个时代的担当。”

神威超算的飞速发展、自主研制离不开科技工作者的攻坚克难。回首过去,从2014年“神威·太湖之光”在科技部正式立项,成为“十二五”期间继“天河二号”后又一十亿亿次级超算项目,到年底完成原型机验证,再到2015年底研制组装。短短两年时间,聚万千英才之力完成世界一流超算平台。看今朝,神威超算平台对高校和社会开放,莘莘学子利用超算攻克多领域难题,为科学研究、工业技术与民生发展贡献力量。

特别感谢国家超级计算无锡中心吴主任的精心安排和工作人员的详细讲解。希望此次参观学习能够让同学们更深入地了解我国超算技术的发展,同时探索潜在的应用景。