基于网络IO的异构计算架构
成果类型:: 新技术
发布时间: 2022-11-04 11:18:28
由于运行应用所需资源的多样性与服务器刀片中固定数量的硬件资源(如中央处理单元CPU核数、内存大小)不匹配,现代数据中心的资源利用率受到很大限制。为此,引入了资源分离的新型数据中心的概念,即用只包含一种特定功能的资源刀片代替包含所有类型资源的集成服务器刀片。本成果探索工业互联网AI、大数据等业务对于分离计算的需求,建设能融合多种计算单元、存储单元、内存单元的Demo系统,实现面向2030的新型网络架构与技术框架的探索与实践,并为无损数据中心的技术自主升级提供技术支撑。
本成果亮点如下:1、超高速超低时延抖动网络互联技术:实现了超高速超低时延抖动网络互联技术将异构计算单元CPU、GPU、ASIC、fpga等)、异构存储单元、内存单元等高速高效无缝链接以支撑网络异构计算。2、新形网络协议栈技术:研发了新形态的网络协议栈以满足异构计算的超高端到端性能要求,包括协议栈的硬件卸载,新形态DPU,新型流控算法,拥塞控制算法等等。3、计算阵列技术:研发了由CPU、GPU、DSP、ASIC、FPGA等组成的计算阵列,结合超高速超低时延抖动网络互联技术和新态网络协议栈技术,可为应用提供异构的、可调度的计算能力。4、存储阵列技术:由SSD组成存储阵列,结合超高速超低时延抖动网络互联技术和新态网络协议栈技术,可为计算阵列提供接近内部总线性能的存储能力。5、内存阵列技术:由SCM/NVDIMM等组成非易失性内存阵列,结合超高速超低时延抖动网络互联技术和新态网络协议栈技术,可为计算阵列提供接近内部总线性能的内存能力和内部总线访问的接口。
本成果可被应用于新型数据中心以支撑新型数据中心对于超低延迟和超高传输带宽的性能需求。
新型数据中心可以为资源分配提供很高的灵活性,因此其资源利用率可以得到很大程度的提高。此外,引入功能分解可以简化系统升级,使新型数据中心能够快速采用新一代组件。然而,不同资源之间的通信面临着严重的问题,即延迟和所需的传输带宽。特别是完全分散的数据中心中的CPU-内存互联需要超低的时延和超高的传输带宽,以防止运行应用的性能下降。即使采用当前最先进的光传输技术来,要想满足新型数据中心的要求,仍然具有很大的挑战性。本成果可被应用于新型数据中心以满足新型数据中心对于超低延迟和超高传输带宽的性能需求。
紫金山实验室是江苏省和南京市为了深入贯彻习近平新时代中国特色社会主义思想,打造引领性国家创新型城市,共同推进建设的重大科技创新平台。紫金山实验室面向网络通信与安全领域国家重大战略需求,以引领全球信息科技发展方向、解决行业重大科技问题为使命,通过聚集全球高端人才,开展前瞻性、基础性研究,力图突破关键核心技术,开展重大示范应用,促进成果在国家经济建设中落地。紫金山实验室力图成为国家科技创新的重要力量,建成体现国家意志、具有世界一流水平的战略科技创新基地。
本成果对于异构的计算单元的设计研制和构建,可支持多样算力如CPU、GPU、FPGA等。对于内存单元的设计研制和构建,具备支持主存的网络延展能力。对于存储单元的设计研制和构建,可支撑外存等的网络延展。同时支持包括新形态网卡的Demo,实现了各类分解单元的接入。完成了中心高速交换网络的设计和构建,实现了不同解耦单元的互联。
希望以技术合作的形式,对本成果进行成果转化。在落地过程中,也希望能确保本成果的规模化应用。如有可能,希望在本成果落地后进行持续技术深化,并且将迭代后的技术进一步进行成果转化。