2003年9月至2007年7月 吉林大学 计算机科学与技术专业 学生
2008年9月至2011年7月 吉林大学 计算机应用技术专业 学生
2011年7月至今 国家超级计算天津中心 系统工程师
1、我和值班团队7*24小时保障各套系统全年稳定运行,4年来无重大故障,累计运行作业数800多万个,服务全国的科研用户超过1600家,服务的应用领域涉及生物医药、基因技术、航空航天、天气预报与气候预测、海洋环境模拟分析、航空遥感数据处理、新材料、新能源、脑科学、天文等诸多领域。
2、2015年8月12日爆炸后我坚守第一线,8月17日,在确定超算中心大楼符合恢复系统运行的硬件条件后,作为“天河一号”恢复系统的开机、调试负责人之一,我在规定时间内圆满的完成了开机、调机任务,极大的支持和鼓舞了开发区的灾后重建工作。
3、我撰写值班制度、值班手册、故障处理流程等文档,规范、完善系统管理流程,组织新员工系统管理培训。经过我的努力,中心形成了完善的值班队伍培训机制和规范的故障处理流程。
4、系统监控、分析工具优化
1)工具优化:存储超时报警显示原因、ost链接数监控优化、mount报警自动处理、network单点RAM_ECC误报过滤、check_job用户作业分析工具、管理节点资源监控等。
2)针对ost掉链接和自动重启等频发问题,开发针对lustre每个卷的io监控,同时开发了io监控日志的分析工具,以便准确的定位到引起存储问题的用户,及时处理。
3)分析发现存储掉链接和自动重启跟高速网不定时卡顿有一定关系,为此部署了网络延迟监控,及时发现高速网卡顿问题并解决。
5、参与TH-HPC1、TH-HPC2、TH-ES新集群搭建工作,包括方案撰写、系统搭建、性能测试等。Linpack调优后实测峰值524.5 Tflop/s,并行效率87.9%,在当时的Top500中排391名。现在这三套集群已经稳定运行一年多了,稳定性和易用性深受广大用户的好评。
6、完善并落实系统安全规范,部署rkhunter、snpooy、nessus等安全工具,部署security、setuid、snoopy等安全扫描监控。通过部署这些工具、软件,保障了集群的网络安全和系统安全。
7、开发运维自动化工具,部署jumpserver运维环境,安装flume、elasticsearch、kibana等日志分析组件,通过部署这些工具,在简化了日常运维工作的同时,提高了系统的稳定程度。
8、参与我国自主研发新一代百亿亿次超级计算机“天河三号”的E机原型机系统搭建、测试。经过密集性能测试,实现多项实验突破,进一步证明其易用性,将为我国科研及产业创新提供新的动力。
9、用户服务提升
1)应用分析:测试vtune、darshan、tau、scalasca等软件,撰写测试报告;利用espresso等程序,使用darshan、slurm profiling等收集用户性能数据;完成利用darshan获取hpc高性能计算用户IO数据方法及结果报告。
2)开发用户核心数据备份工具、数据回收站工具。
3)开发“OA故障指导系统”
4)开发“用户问题反馈系统”
10、发表论文
1)超级计算机作业管理系统概述,《数码世界》,独立撰写
2)浅谈中国超级计算机及其发展,《数码世界》,独立撰写
3)Workload Characterization and Evolutionary Analyses of Tianhe-1A Supercomputer,《Computational Science - ICCS 2018》,第三作者
4)On the Load Imbalance Problem of I/O Forwarding Layer in HPC Systems,《2017 3rd IEEE International Conference on Computer and Communications (ICCC)》,第五作者
11、获得荣誉
1)天津经济技术开发区2013年度“建功立业”奖优秀建设者
2)2013年天津市滨海新区科学技术进步奖一等奖
12、参与项目
1)国产化自主可控信息平台(2015.9-2016.12)
2)国家高性能计算环境构建与资源提升关键技术(2016.7-2018.6)
3)多体系结构评测-E级计算机关键技术验证系统(2016.7-2018.6)
4)工业云公共服务平台及应用推广(2016.12-2018.12)
13、参与撰写软件著作权:
1)天河高性能计算集群状态可视化监控软件
2)天河高性能计算集群系统状态监控软件