首页 > 焦点要闻 > 阿里云超算:构筑算力青藏高原,携手超算珠穆朗玛共促行业数字化转型

阿里云超算:构筑算力青藏高原,携手超算珠穆朗玛共促行业数字化转型

2020-10-23 14:55  

基本信息

面向行业
应用领域
“阿里云弹性计算与高性能计算平台正在通过构建算力的‘青藏高原’,帮助更多行业用户建立自己的‘珠穆朗玛峰’,解决他们对于高性能计算和对弹性算力日益旺盛的需求。”阿里巴巴研究员、阿里云弹性计算负责人张献涛在CCF HPC CHINA 2020期间如是说。
 
 
迅速崛起的云上超算

传统超级计算机对算力的极致追求长期以来一直吸引着人们的眼球,然而,它所提供的更多是专用领域的“珠穆朗玛峰”,对很多商业客户而言有点高不可攀。近年来,云上超算迅速崛起,张献涛把其阿里云高性能计算称为“青藏高原”。采访中,张献涛详细介绍了阿里云高性能计算的底座——弹性计算的三大优势特征:

首先,保持客户的业务永续。阿里云从设计弹性计算产品之初,就要求产品要随着技术的演进,持续保障客户业务在云平台上的永续性,这在设计服务协议时称为单实力可用性SLA。很多著名的云计算服务商把单实例可用性SLA定为90%-99.9%不等,而阿里云把单实例可用性SLA定义为99.975%,跨AZ多实例可用性SLA更是高达99.995%,为业内最高。

为了交付业内最高水平的SLA,达到更高的高可用性,阿里云工程师联合达摩院的科学家,在服务器的故障预测方面做了大量工作,问题出现之前的特征可以通过人工智能进行准确识别,然后通过热迁移技术,让客户无感地把故障节点上的业务迁移到正常的节点上。

其次,为客户业务提供极致性能。在云计算领域,性能超级重要,客户业务运行在不同性能的云平台上,所花费的钱也不一样。为了突破性能的瓶颈,阿里云在计算、存储和网络方面进行了大量的协同优化。

根据Gartner最新报告显示,阿里云的弹性计算在产品性能、稳定性和服务质量等方面夺得多项世界第一,超越了美国所有云计算公司。

第三,为客户应用提供极致的弹性。很多突发社会热点事件,在短时间内对算力的需求量极速放大,令传统数据中心很难应对,而通过公有云的弹性资源供给机制就可以很好地解决这一问题。例如,阿里云可以在3分钟内提供50万核的资源去满足社会热点事件所需要的突发需求。今年疫情期间,钉钉被选为小学生上网课的平台,阿里云的大量科学家和软硬件工程师协同设计,做了大量的优化工作,才能够快速支撑如此大规模的弹性算力需求。

自2010年5月阿里云首个商业化的弹性计算产品ECS1.0面世以来,阿里云持续探索弹性计算的未来核心技术方向。经过十年的不懈努力,阿里云的存储性能提升了2000倍,网络性能提升了500倍,整体算力平均每年翻一番,以神龙计算平台构建了计算资源的池化、以洛神分布式网络平台构建了网络的池化,以盘古分布式存储平台构建了存储资源的池化,总体比国外同行至少领先了一代,性能比第二名高出5倍以上;加之通过自研的飞天操作系统,调度支持X86、ARM异构CPU的百万台高性能自研神龙服务器集群,打造出统一计算、统一存储、统一网络以及灵活资源调度的云上超级计算机。
 

“从本质上看,弹性计算其实是在构建一个云上超级计算机,去满足云上数以百万用户的业务应用对计算、存储、网络的性所提出的极其苛刻的需求。”张献涛说。

青藏高原与珠穆朗玛可以相得益彰

传统超算中心是国之重器,不论在无锡、郑州、广州,北京、长沙、浙江等哪里布局,更多的是国家和地方政府在投入,这是任何一家商业公司都无法承担的,但是如何让传统超算中心发挥出更好的商业效应,使超算的珠穆朗玛高峰与阿里云高性能计算的青藏高原相互融合,相得益彰,还是有很多可为之处。

张献涛介绍,阿里云通过与很多传统超算中心交流,发现大家都有强烈的愿望,希望进入一个真正的良性循环,使中心做到自负盈亏,特别是地方政府,希望能够引入一些云计算公司共建云超算,最终推动实现商业化的超算。所以,阿里云与一些超算中心达成合作,双方结合各自在技术、机制等方面的优势,把早期在气象、半导体、汽车、石油勘探、动漫渲染等方领域的竞争关系变为如今的合作关系,实现双赢,也让HPC的性价比一年比一年更亲民。

尤其是今年2月突发新冠疫情,很多超算中心为新冠科研以及各种筛查工作进行支持,但是突然间很多人被隔离在家,无法到达办公室和机房,阿里云高性能计算平台提供了远程工作方式使客户业务持续运营的优势更加凸显,在新冠期间帮助很多科研机构不但没有停止工作,而且加速了数据的共享与研发的进程。
 

阿里云高性能计算负责人何万青介绍,阿里云通过共享方式把高性能计算的优势化为给市场带来更大的技术红利,以及更低的算力成本,这才是正确的商业模式,用户通过算账,可以显而易见地做出正确的商业选择。
 
阿里云已登上云超算世界领跑位置,行业应用呼吁更多协作

当我们参加国际的ICT大会时,往往会被现场观众对新技术发布所表现出的热情所感染,很容易就会认为国际厂商比中国厂商在技术上要先进许多。其实,中国云计算发展迅速,在一些关键技术领域和关键产品上阿里云已经实现了对国外同行超越。

斯坦福大学DAWNBench是人工智能领域最权威的竞赛之一,它是衡量深度学习优化策略、模型架构、软件框架、云和硬件等综合解决方案实力的标准之一。在今年的图像识别(Image Classification on ImageNet)榜单中,阿里云包揽了训练时间、训练成本、推理延迟以及推理成本四项第一,打破了谷歌等企业保持一年多的纪录;在网络方面,阿里云存储网络单个实例可以达到2400万PPS,110G带宽;在云盘应用中,阿里云的单盘可达100万IOPS,100微秒延时,数据三备份实时落盘。

之所以在国内会议现场的中国观众不如国外反映热烈,原因还在于云计算在整个中国社会的接受程度方面与国外还存在着一定的差距。何万青指出,背后很大的原因是中国客户整体的IT水平和云计算普及水平要落后于国外的生态。以HPC为例,国外拥有完整的工业软件体系、SaaS体系、大学教研体系等配套生态,一项新的技术产品一经推出,马上就能买回去用起来。在国内则还需要各方面系统性的技术产品协作,才能真正应用起来,所以更普遍的是以润物细无声的方式进行推进。

当然,阿里云高性能计算平台已覆盖工业制造、生命科学、油气勘探和影视特效等多个行业,在包括《流浪地球》电影制作方MOREVFX的影视渲染制作、中山大学新冠重症因素研究分析、全球健康药物研发中心等行业科研客户应用中充分体现出了超高的行业价值。何万青也特别指出,在云超算领域,阿里云至少在国内是整体超前的,其中也非常感谢包括上汽集团等最早的一批行业客户,在阿里云超级计算集群还没有完全商业化的时候,就一起探讨合作,共同进步。

“全球Super Computing大会已经出现了AWS、谷歌、微软等推动云上超算快速发展的大趋势,阿里云在这一领域无疑已经站在了全球领跑的位置。加之与国内众多传统超算中心进行联手,我们有信心加速行业用户对算力越来越极致的需求。”张献涛说。

今年年初,阿里云宣布未来三年将投入2000亿元,用于云操作系统、服务器、芯片、网络等重大核心技术研发攻坚,而云超算中心与传统超算中心也正快速形成合力,加速推进国家新基建建设发展与行业客户的数字化转型。

 

赞 0个人觉得赞
logo

北京东方金信科技有限公司

规模:200-500人

网站: http://www.seaboxdata.com/

北京东方金信科技有限公司(后简称东方金信)成立于2013年2月,是一家专注于大数据平台和大数据解决方案的国内领先企业,拥有ISO9001和CMMI3认证,是首批...

粉丝0

关联信息

关于我们 | 全生命周期管理 | 服务的客户 | 版权说明 | 联系我们

Copyright 2008-2016 cnbp.net All rights reserved 经营许可证编号:京ICP证160891

意见
反馈
返回
顶部