首页 云计算 服务器 大数据 存储 IT 安全 物联网 软件 商品

云计算

云开发频道旗下栏目: 云资讯 云安全 云开发 云趋势

2019可信云大会丨北京航空航天大学教授刘轶:高性能计算的现状与未来

7月2日,2019可信云大会在北京国际会议中心隆重开幕。2019可信云大会以“智能云网边,可信创未来”为主题,由中国信息通信研究院主办。

下午13:30大会特设的智能云论坛活动正式开始,北京航空航天大学教授,计算机学院中德联合软件研究所所长刘轶做了《高性能计算的现状与未来》的精彩演讲。

北京航空航天大学教授,计算机学院中德联合软件研究所所长刘轶

很高兴今天有机会跟大家分享这个报告。我今天报告的题目是“高性能计算的现状与未来”。今天是智能云论坛,所以简单谈一下高性能计算和人工智能的关系。

高性能计算发展现状

在高性能计算领域有一个Top500排行榜,每年6月下旬和11月下旬分别发布两次排行榜,代表全世界目前性能最好500台超级计算机。

我们统计Top500性能增长的趋势,横轴是时间,最近几十年来,高性能计算机性能长期维持十年千倍的增长速度,也就是说高性能计算机的性能市面上最高性能的超级计算机每十年增长千倍,超过摩尔定律增长速度。

曲线上,从2013年开始性能增长趋缓,2013年开始降到十年百倍,主要是由于处理器性能的增长,随着集成电路领域在讲摩尔定律终结问题,高性能计算机性能还有进一步放缓的趋势,这是整个增长的趋势。

最新发布的Top500排行榜中前10名机器表格(6月17号刚发布的排行榜)。排名前10机器中,前2名是美国机器,第3、第4是中国。

2018年6月份,中国太湖之光第一,去年美国Summit冲到第一,Seierra到了第二,我们现在是第三、第四的排行。

排行榜地点是机器安装位置,主要在美国、欧洲等国家。

峰值性能。计算机领域处理器、浮点运算次数有一个理论的峰值性能,但这个排行榜是通过一个测试程序测到的性能来排名的,更全面、更综合考察这台超级计算机综合性能,包括体系结构等各方面综合性能。

目前世界第一的Summit台计算机峰值达到200PF。Linpack性能达到140多PF水平。这个机器的构成,尤其处理器,前10机器只有2台是所谓同构纯CPU机器,第5机器和第9机器纯粹用英特尔CPU搭出来,其他都是异构和加速的结构,太湖之光和天河二号要么是异构,要么是加速器的结构。

功耗。现在排名靠前的机器功耗一般都到10兆瓦上下量级。按照国别排行,即这些机器放在不同国家,有一个说法是Top500排行里存在所谓三个世界,第一世界占据了绝大多数资源。今年有一个很有趣的现象,按系统数量,即按机器数量,中国已经占到第一,超过了美国,中国占到500台中的200多台,中美两个国家在Top500中占了一大半。有一个说法:中国在超算上超过了美国,但没有这么乐观。

另外一个统计曲线,按照性能合计。左图按照台数,Top500里中国占200多台,将其性能加到一起,和美国相比,反过来了,说明中国在Top500里的机器数量相对比美国多,但性能加到一起比不过美国,也就是美国比较靠前。代表Top500里所谓超级计算机有相当多是互联网企业,国内互联网公司做云计算,性能相对来讲是中小规模的性能更多一些。

按厂商做统计,排名前三中国厂商,联想、浪潮、曙光三家企业在系统数量里占到了34%,是第一大。在今年6月下旬超算大会上,有一个话题专门讲的是中国现在已经成为了高性能计算最大的生产者,最大的消费者。生产者体现在中国的厂商在高性能计算机制造系统里已经占到了第一。

从性能来看,还是最高,但比例占得小多了,可以看出这三家企业生产的高性能计算机数量比较多,但整体机器规模相对比较小。在国内目前排名前2位的太湖之光和天河二号都不是这三家厂商生产出来的。

世界上最先进的超级计算机是什么样子?

排名第一的美国Summit,美国超级计算机主要是由所谓DOE(能源部)主导,能源部下属有若干个国家实验室,由它来运营和管理这些机器,Summit这台机器安装在美国能源部橡树岭国家实验室。在美国二战时,曼哈顿计划设立了橡树岭国家实验室。

这个机器一共有4608个节点,每个节点是典型的集群结构,跟云计算非常相近。

如图,节点俯视图。这个机器是2个CPU+6个GPU,跟通常大家见到的集群节点的区别:第一,CPU不是英特尔CPU,而是IBM的PowerCPU,GPU用的是V100;第二,这个用了GPU自带上午高速互联接口,IBM为它专门设计了主板,CPU跟GPU之间互联数据通路打通,完全用高炉通道实现互联。这里没有散热风扇,用的液冷。整个样子跟云计算数据中心很相近,一排一排机柜,但采用液冷,噪音比较低。

互联网用的是InfiniBand,是典型的集群结构。操作系统是:RedHat。

中国两台机器,现在排名第三的太湖之光,放在无锡超算中心。这台机器比较有特点的是使用了我们自主的众核处理器SW26010,分成4个核组,每个组是1主核+64从核,实现高性能浮点运算。这个CPU大概是三年前的计算,当时浮点达到3个T,跟同时代最快的GPU基本相当,所以性能相当。浮点性能、系统峰值性能是125个PF。这个机器从2016年交付到2017年,连续两年四次得到Top500第一的排名。

跟Summit不好对比,这是2016年的机器,Summit是2018年的机器,两个有代差。

天河二号放在广州的超算中心。天和二号机器说起来一波三折,今年以来在IT领域,美国禁运话题非常热,高性能计算领域里更早,2015年首先就已经遭受了美国商务部的禁运,天河二号是典型第一个被禁运的,先做了一期系统,一期系统采用英特尔志强处理器+Xeon Phi。有计划二期升级,跟英特尔谈好了,结果美国商务部禁运,没办法,只好立足自身做自主的处理器,所以二期之后,在2015年禁运之后,到2017年完成升级,本来最早升级计划是直接把英特尔一代加速卡替换成二代,就是现在的所谓KEL,完成系统升级。禁运之后卡不能买了,所以换成了自己的加速卡,实现最终系统的升级,峰值性能达到110个PF。

未来的情况。

高性能计算领域目前讲的最多的是所谓E级计算,E级就是Exa-scale,中文是百亿亿次。

E级计算机面临一系列技术挑战:

第一,功耗。现在Top10机器功耗经常达到10兆瓦以上,功耗太大对整个机器运营各方面都造成很多麻烦,耗电多不经济;可靠性受到影响。高性能计算领域前几年有一个设定,将来做E级计算机时,希望把它的功耗限制在20兆瓦以内。按照这个来换算,性能功耗比要达到每瓦50GFlops以上,现在最好水平也不过是20G,距离真正50G还有相当距离。目前从功耗上还没有有效的技术途径解决这个问题。

第二,应用性能问题。

第三,可编程性问题。系统规模极为庞大,动辄上百万个处理器核规模,导致并行性、线程数量很难达到这样的水平,对程序员带来很多挑战。