亚太区Arm开发者大会今天开幕!阿里技术天团现身

芯东西(公众号:aichip001)
文 | 温淑

芯东西11月4日消息,就在刚刚,面向中国的2020 Arm DevSummit大会正式开幕。作为全球第一大芯片IP供应商Arm发起的年度盛会,本届大会以线上方式举办,以便数千位软硬件工程师、开发者能够突破地域限制进行交流。

在开幕演讲中,Arm CEO Simon Segars以视频方式进行致辞;随后三位阿里巴巴技术大牛组成“天团”,分享阿里巴巴基于Arm指令集,实现软件驱动云优化的实战经验。

Simon在致辞中强调,2020是充满挑战的一年,但同时滋生出许多韧性和想象力。比如,基于Arm生态系统的超级计算机“富岳”正被用于研究新冠病毒如何传播的模型。Simon表示,相信各方通过合作,我们能够共同克服困难,并最终惠及众生。            

有关阿里巴巴首席工程师周经森、高级技术专家郭健美、云程序语言与编译器团队负责人李三红这3位阿里巴巴技术高管分享的精彩内容,请随我一文看尽。

一、阿里技术天团:软件优化是系统性能提升的重点

周经森担任阿里巴巴智能基础产品事业部首席工程师,负责推动数据中心的软件性能优化。他指出,当运营一个大规模服务器集群时,即使节约的服务器数量只占很小的百分比,也会带来可观收益,而让性能提升的关键,在于实现软件的优化。

他以阿里巴巴应对双十一为例:网络流量逐年攀升的前提下,对机器数量的需求水涨船高,比如,2019年双十一的流量是38.4亿美元,相比2018年增加了27%,但如果每年都增加机器数量,从商业和能源角度来说会造成浪费。

面对这一现状,提升软件性能成为另一个“解题思路”。出于此,阿里巴巴推出基于Arm指令集的软硬件协同优化系统SPEED,以实现软硬件的协同优化。

阿里巴巴高级技术专家郭健美介绍了SPEED系统实现软硬件协同优化的思路。

他指出,在大型机房中实现软硬件性能优化的难点在于两点:

1、各个部门、业务方往往仅能专注于自己的业务,很难关注全局。这时候就需要用简单的、可复现的基准分析来帮助分析全局。

2、基准分析时固化的配置条件可能仅适用于小范围,与实际应用时并不相同。

考虑到这两点,SPEED系统设计时主要遵循两个思路:

1、在小规模配置时候,考虑多种场景。比如,让SPEC CPU去跑多种不同的模型。

2、SPEED关注的核心问题是基础配置,以及基础配置能否扩展到集成多种软硬件的数据中心中。

二、SPEED:运行四大关键步骤

接下来,郭健美分享了SPEED系统运行时的四大关键步骤:

1、Estimation(判断):在这一过程中,SPEED系统会了解数据中心发生了什么,并完成业务画像。

2、Evaluation(评估):完成“判断”后,SPEED系统会评估究竟从哪里去做优化和做软硬件升级,并通过对小规模的服务器进行优化,进而评估优化措施是否可以大范围推广。

3、Decision(决策):数据中心中集成了大量软硬件,这一流程需要SPEED系统以“集群”的视角,权衡各种因素,去做优先级别的排序,确定规模化优化中最重要的部分是什么。

4、Validation(验证):这是一套“集群”层面的评估、分析方法,用以获取前述软硬件优化手段取得的结果,并验证是否实现了预设的效果。

这四大步骤也是SPEED全称(System Performance Estimation,Evaluation and Decision)的由来。

亚太区Arm开发者大会今天开幕!阿里技术天团现身

郭健美同时指出,在SPEED系统运行过程中,要实现系统对监控、传输、软硬件更新换代的各方面需求,还需要每台机器加装监控端,用于获取数据。

另外,SPEED系统会加装三个引擎,分别用于数据集成、分析、服务。最终,软硬件优化结果会以UI界面向用户呈现。

据阿里云程序语言与编译器团队负责人李三红分享,为实现上述所有功能,阿里巴巴团队会根据业务场景,利用JAVA知识进行优化。

三、SPEED系统三大特点

郭健美同时分享了SPEED系统运行时的三大特点,分别是无侵入性部署、软硬件集成、领域知识和AI结合。

1、无侵入性部署

现有的大部分解决方案,要求每台服务器搭载很多监控端,数据上传和存储过程会消耗大量算力。

而SPEED系统则利用海量的、现有的监控数据,不采集新数据。这样一方面解放了服务器算力,另一方面降低了客户在服务器、监控端上投入的成本,以及对客户设备的侵入性。

2、软硬件集成

软件部分的集成重在“理解”系统的性能,因此,SPEED系统从“业务视角”出发,为自身智能化能力较缺乏的客户赋能,关注业务本身是否受到影响。

此外,硬件方面,SPEED系统从“未来视角”出发,关注硬件系统的升级趋势。

3、领域知识和AI的结合

目前,各类数据趋于海量,因此系统部署中要不可避免要用到AI知识。针对AI应用中有时准确率不高的问题,SPEED系统融合领域知识,以推出足够可靠的预测结果,进而保证软硬件优化措施的落地结果。

亚太区Arm开发者大会今天开幕!阿里技术天团现身

结语:全球软硬件开发者的盛会

今年,Arm年度技术论坛(Arm TechCon)首次更名为Arm DevSummit,并将参会方式由线下转为线上。除了举办方式的差异,本届大会时长由往年的一天延长为两天,容纳了更多的分享内容。

通过大会首日阿里巴巴三位技术高管的分享,可以了解阿里团队应对海量数据、算力需求增长等问题的解题思路。接下来的议程中,Arm DevSummit或将带来更多精彩内容。