钱德沛:构建支撑科技创新的新一代计算基础设施

12月4-5日,“第五届中国科研信息化发展研讨会”在北京举办。《数据与计算发展前沿》主编钱德沛教授出席研讨会并做题为《构建支撑科技创新的新一代计算基础设施》的主题报告,报告对我国高性能计算最近几年发展的情况以及对于后面新一代计算基础设施提出了重要思路。

钱德沛教授指出,高性能计算具有重大的战略意义。理论与分析、实验与观察、计算与模拟是科学研究的三大手段计算是人类认识客观世界规律和产生重大科学发现的重要手段。高性能计算是战略性、前沿性的高技术,是发达国家争夺的战略制高点,也是解决重大挑战性问题的重要手段,同时是国家创新体系的重要组成部分。

本文根据钱德沛教授的报告整理。

高性能计算发展与回顾

国家高技术研究发展计划(863计划)从2002年开始,十五、十一五和十二五连续实施了三项重大项目。第一个项目从2002年到2005年,叫高性能计算机及核心软件,强调资源共享与协同工作,以网格支持多领域应用,研发10万亿次量级计算机。

2006-2010年的第二个项目为高效能计算机与网格服务环境,项目强调了除性能之外的计算机其他指标,包括程序开发的效率、程序的可移植性、系统的鲁棒性等等,强调系统与环境的三位一体发展和服务特征,这个项目研发了三台千万次量级计算机。

2010-2016年期间的第三个863重大项是高效能计算机及应用服务环境,项目强调环境新的运行模式和机制,探索了建立计算服务业的途径,研制了世界领先的计算系统,包括“天河二号”和“神威太湖之光”。

钱德沛教授的报告中列出了从1996-2016年 20 年的高性能计算机的发展,1996年的“曙光1000”是 25 亿次,到了2016年“神威太湖之光”是 12.5 亿亿次,提高了五千万倍,在这之间有一系列的里程碑式的系统,比如“曙光3000”、联想“深腾6800”、“曙光4000”、“天河一号”等等。2013年研制成功的“天河二号”是异构加速结构,每秒10亿亿次,Linpack6.1亿亿次,连续六次在世界TOP500排行榜上位居第一(2013年的6月-2015年的11月),目前排世界第四,装备在广州超算中心。2016年“神威太湖之光”研制成功,它采用国产神威处理器实现,全系统超过1000万核,每秒12.5亿亿次,Linpack9.3亿亿次,连续四次在世界TOP500排行榜上位居第一(2016年6月-2017年11月),装备在国家超级计算无锡中心,目前排世界第三。

我们建立了国家高性能计算环境,来改变过去计算机孤立安装,到机房使用的模式,通过互联网远程高效使用计算机,提高了计算资源的利用率,也使得计算普惠化,让计算更好的被科学家所使用。

十三五“高性能计算”重点专项中提出的专项总体目标包括:

  • 突破E级计算机核心技术,依托自主可控技术,研制适应应用需求的E级
    (百亿亿次级)高性能计算机系统,使我国高性能计算机的性能在“十三五”末保持世界领先水平。
  • 研发一批关键领域/行业的高性能计算应用软件,建立国家级高性能计算应用软件中心,构建高性能计算应用生态环境。
  • 建立具有世界一流资源能力和服务水平的国家高性能计算环境,促进我国计算服务业发展。

高性能计算当前的发展形势

目前,超级计算机发展遇到瓶颈,1993-2012年,超级计算机的性能以每10年提高1000倍的速率提高,从新的TOP500曲线看,从2013年起,上升速率变缓。2019年11月TOP500前十名没有发生变化,如果没有大的突破,可能降低为每10年100倍甚至更低。主要瓶颈体现在:

 

  • 能效指标的约束,Dennard scaling接近极限

  • 摩尔定律接近失效

  • 体系结构变化缓慢

  • 尚无换代的颠覆性技术出现

  • 新原理器件缺少突破

  • 算法、软件和硬件之间匹配不良

 

同时,国内外形势也在不断发生变化,新的热点层出不穷,比如大数据、人工智能、区块链等等,这些热点的不断出现可能会降低对于高性能计算关注的程度或者投资的强度。另外,社会对于高性能计算领域期望值又很高,因为我们的超级计算机连续多年获得世界第一。但是我们要看到机遇和挑战并存,我们坚持发展支持科技创新的计算基础设施的信念不能动摇。

高性能计算的发展面临着巨大的挑战,在E级计算上面临着一系列卡脖子技术,包括高性能的处理器、加速器、内存芯片(特别是3D内存)、新型的存储器件、高性能互联网(特别是光传输和光交换)。另外一个大的问题就是 IC 设计的 EDA 软件,还有先进的芯片制造工艺以及工程计算软件等。

同时,我们国家的超级计算基础设施也面临着可持续发展的困难

 

  • 运行资金不足

  • 服务模式主要还是提供机时

  • 提供解决方案的能力还有待提高

  • 应用资源不足

  • 自己研发的应用软件少,且不成体系

  • 开源软件不一定满足要求,也存在将来受到限制的潜在风险

  • 商业化软件价格昂贵,并行度有限,与国产超算系统不匹配,使用有限制

  • 超算中心人员梯队结构不够合理,高素质人才数量不够

  • 学科交叉未成风气,现行的评价体系不利于学科交叉,急需改变以排名为中心,论文为导向的评价体系

关于构建新一代国家基础设施的想法

基础设施的可持续发展依托于应用软件,没有应用软件就没有稳定的用户,单纯追求硬件指标不可能解决可持续发展的问题。应用软件问题怎么解决,要多渠道的来解决应用软件问题,通过自研、开源和商业软件相结合解决应用软件资源问题,应用软件研发应该和基础设施建设互动,形成良性循环。应用软件开发,在基础设施上试用验证,在验证基础上进行功能和性能的完善,在完善基础上逐渐使软件产品化,再在基础设施上提供对外服务来获得收益,积累资金再促进新的应用软件开发,实现良性循环,必须使应用软件开发“有利可图”。

另外,应用软件的开发还要充分发挥群智作用,使软件开发有充足的力量。还有一点特别要注意,就是应用软件的研发必须和国产超级计算机平行发展,这是一项长期的战略任务,因为从现在国际形势看,已经不可能再依靠国外技术来发展我国的超级计算机,所以如果没有与国产超级计算机平行发展或者匹配的应用软件,硬件发展也会失去动力。

最后钱德沛教授建议,要发展高性能计算应用软件的基础支撑平台,使其成为应用软件生产的“工作母机”。依托平台可以灵活快速地开发各个不同学科领域的计算应用软件,比如数值装置、科研虚拟仪器、物理系统模拟和科研大数据分析等。应建立平台的层次结构,在底层有国产超级计算机,在此之上提供一个支撑平台,这个平台包括了各种常用的典型模型库及其实现、与硬件匹配的高效算法库、与硬件相结合的优化工具及工具库、调试工具、基础程序模版库等等。在这些算法、模型库基础上,构造常用的,有一定功能的基础软件模块并且形成库,同时还要有流程编排的工具,例如工作流,把库程序或者基础程序模块连接起来,形成更高层次的功能。同时,还要有数据存储、传输、分析的功能,要有程序开发的支持。在这样一个支撑平台上,可以按照需求,灵活地组合各种各样的库和各种模块,生成所需要的应用软件。

钱德沛教授提出了关于发展高性能计算软件的一个基础支撑平台的设想,他建议,这个平台应该从顶层设计,而且是一个可生长、可扩展、可以通过长期积累来形成的功能丰富和性能良好的平台。发展高性能计算软件基础平台应该尽快着手来干。

联系我们

地 址:广州市番禺区大学城bat365官方网站登录资讯管理学院B栋B305
邮政编码:510000
联 系 人:李启元老师
电 话:+86-20-39336519
电子邮箱:hpcoffice@gdhpcs.org
网 址:http://sdcs.sysu.edu.cn/gdhpcs/