阿里云大数据服务如何创世界纪录?对话英特尔阿里云高管

智东西(公众号:zhidxcom
| 心缘

智东西9月28日消息,在阿里巴巴2019云栖大会第二天的飞天智能主论坛上,阿里巴巴副总裁贾扬清宣布,运行在英特尔至强可扩展处理器上的阿里云大数据计算服务MaxCompute,在大数据性能基准测试TPCx-BB(TPCx-BigBench)中以100TB的规模创造世界纪录,并在30TB规模下性能比第二名高一倍、便宜一半。

阿里云大数据服务如何创世界纪录?对话英特尔阿里云高管

TPCx-BB是目前业界最全面的端到端大数据标准测试集,阿里云成为首家公布TPCx-BB成绩的云服务提供商,MaxCompute达到的100TB是目前为止的最大数据集。

会后,英特尔高级首席工程师、大数据分析和人工智能创新院院长戴金权,阿里云计算平台高级总监关涛接受智东西等少数媒体的采访,就英特尔与阿里云在大数据上的合作、双方在AI和云计算上的合作、选择TPCx-BB测试的原因、阿里云大数据平台的特性、升级大数据平台可能遇到的挑战等问题一一予以解答。

“我们是第一家非Hadoop体系的大数据系统接入到这个测试,我们也是第一家以公共云的形式接入这个测试的。”关涛表示,“之前的测试基本上都是用户买一些服务器,然后在服务器上来做,最多是一个之前那种数据中心的形式。我们这次推动是以云推动服务的形式在上面做的测试。”

阿里云大数据服务如何创世界纪录?对话英特尔阿里云高管

▲阿里云计算平台高级总监关涛(左),英特尔高级首席工程师、大数据分析和人工智能创新院院长戴金权(右)

一、阿里大数据服务打破两项世界纪录

大数据性能基准测试TPCx-BB由国际标准组织TPC(Transaction Processing Performance Council)制定,通过最常用大数据应用场景,来全面衡量系统软硬件性能,是业界选择最佳软硬件平台的重要参考标准。

阿里云MaxCompute是一项大数据计算服务,能面向大数据开发者,提供快速、完全托管的PB级数据仓库解决方案,从而经济、高效地分析和处理海量数据,并支持SQL、MapReduce、Graph等多种计算模型。

这一新的世界纪录源自英特尔和阿里云多年的合作。

英特尔作为测试基准中BigBench的重要贡献者,与阿里云开发团队深入合作,在软硬结合层面做优化,共同扩展TPCx-BB测试集,增加对MaxCompute计算引擎的支持,并一起在TPCx-BB委员会中共同推广MaxCompute,促成TPCx-BB官方测试集升级,继而正式纳入阿里云MaxCompute计算引擎的支持。

阿里云大数据服务如何创世界纪录?对话英特尔阿里云高管

此外,阿里云的EMR(Elastic MapReduce)大数据服务在另一项测试TPC-DS中也创造纪录。

作为云服务提供商,相较于之前OEM公布的结果,阿里云大数据服务的成绩不仅衡量了软硬件的资本性投入,还包含了对运营成本的考量。

英特尔均以软硬件全方位支持阿里云MaxCompute,为其提供在大数据引擎的标准适配、支持云计算模型、性能优化及最大化内存利用率等方面,大大提升大数据分析的性能和可扩展性,从而增强云上的大数据挖掘和商业智能分析的能力。

它在TPCx-BB中可以达到25641BBQpm(每分钟处理的请求量),最高性价比可达USD224.49/BBQpm。

由两项纪录可见,在英特尔先进技术支持下,阿里云在云上大数据服务的规模和性价比方面都占据了业界领先的地位。

二、英特尔:硬件提升+软硬协同优化

英特尔与阿里云MaxCompute在Benchmark方面合作了约3年,希望通过软硬件协作,在改进硬件的同时也优化软件,从而使关键的计算性能有更大的提升。

从硬件角度来说,主要是硬件本身性能的提升,阿里云MaxCompute跑在基于英特尔至强可扩展处理器的服务器上。

从软件角度来说,双方合作做了很多软硬结合的相关优化。第一,用大量英特尔工具去分析性能,找到性能的瓶颈;第二,针对其中很多核心的算法或算子,双方工程师合作去提高各种性能。

比如说英特尔新的硬件比如说AVX-512以前是256位,现在是512位,那么这个新技术就会被应用。再加上在纯软件层面的优化,叠加到一起使得系统性能翻一倍。

另外,双方也在探索如何将包括大数据和AI计算框架在内的整个计算流水线上,能在补充能力上有更好的合作。

关涛说,这些优化大多数不会是一项优化提升30%、40%,更多可以理解是几十到几百个小点上的优化在一起,是一个逐步的过程。

英特尔的人会定期从上海到杭州来,除此之外,阿里与英特尔在上海有联合的实验室,双方中间还打通了很多合作层面的环节,让两个公司真正无缝的合作,因为阿里云是国内最大的云厂商,英特尔从芯片层面是最大的公司,双方有非常好的合作意愿,联合实验室、联合项目组等工作都在进行。

三、英特尔和阿里云在AI和云计算的合作

除了TPCx-BB合作外,英特尔与阿里云在机器学习、深度学习等AI方面也有很多合作,包括英特尔的BigDL也可以跑在MaxCompute平台上,为阿里内部提供服务。

戴金权举了个例子,今年7月,英特尔和阿里共同开启了大数据处理分析竞赛天池大赛,其中英特尔就将Flink、Analytics Zoo以及其非易失内存等产品提供给大赛。

作为战略合作伙伴,英特尔与阿里云还有着从云到端的合作。双方在云计算方面还共同发布了“阿拉丁神灯计划”,共建“开发者云”平台。这一平台将全面覆盖从入门级云客户到顶级ISV开发者社区,为开发者提供零门槛云体验。

阿里云大数据服务如何创世界纪录?对话英特尔阿里云高管

英特尔不仅提供第二代英特尔至强可扩展处理器、英特尔傲腾数据中心级持久内存、英特尔深度学习加速技术等先进软硬件,以建设“开发者云”平台,帮助开发者持续进行创新,还将提供工程资源和推广方面的支持,促进阿里云平台的生态系统发展,并推动阿里云上的PaaS和IaaS应用。

此外,英特尔与阿里云在物联网、边缘计算等方面也将继续深入合作,为各行各业数字化转型注入更强动力。

四、阿里为什么选择TPCx-BB测试?

阿里云计算平台高级总监关涛回忆了选择TPCx-BB测试的原因。

2015年阿里最初开始测试时,做的是非常简单的Softmark测试,是在大规模上纯做排序。后来他们发现,如果只做排序,无法代表越来越丰富的用户作业场景,所以最后他们选择了BigBench。

BigBench是一个相对权威的Benchmarking组织,同时包含大数据和机器学习的工作负载。它既包含了结构化的24小时数据,也包含了非结构化的数据组成。它的测试结果更加丰富,有30种不同的维度基准联合来测评。

阿里通过这个测试来评判其系统优化程度,这需要一个稳定的测试集合。据关涛介绍,其成绩基本上每年约翻一倍,2018年的成绩比2017年的成绩快一倍还多一点,2019年的成绩比2018年一倍稍差一点,但这几个成绩都是现今在世界上非常领先的成绩。

目前,阿里巴巴和英特尔新发布的成绩是两个:(1)全球唯一一家通过100TB测试的系统;(2)由于通过100TB的仅阿里一家,很难跟其他系统做对比,所以他们把这个维度稍微降低,和第二名系统在30TB上做对比,性能快一倍的同时,成本还可以大约降低一半。

这意味着,如果用阿里的系统,以前需要1000台机器完成的工作,MaxCompute仅用一半就能完成。

阿里集团内部有接近10万台服务器的规模,同时保持着非常高的增速,从这个角度上,性能对他们来说是非常重要的。关涛说,“这也是为什么我们一直通过以Benchmark作为抓手,来锻炼我们的平台去做更多的优化。”

五、阿里云MaxCompute的两个唯一性

关涛说,阿里巴巴是国内唯一一家,也是英特尔的客户里唯一一家具备全栈自研大平台的公司。

他告诉智东西,目前阿里巴巴公共云付费口的量级达到5000-10000,阿里将国内行业性的专有云大概分成17个维度,其中有16个均已覆盖,浙江省的“最多跑一次”项目、浙江省税务系统、新浪微博、国内最大在线互联网保险公司众安保险等都跑在阿里云上。

阿里巴巴从2009年就开始做飞天系统,飞天系统当时分为三大块,分别是分布式存储“盘古”、资源调度“伏羲”、分布式计算MaxCompute。

约从2015年起,阿里云开始通过各种Benchmark,一方面以此为抓手优化其系统,另外一方面用以来体现其性能和性价比。

在阿里巴巴内部,MaxCompute存储了阿里巴巴99%的数据,承接95%以上的计算需求,可以理解成阿里巴巴经济体的大数据内存,大家能想到的所有阿里数据都从这个平台走,比如淘宝、拍立淘、支付宝、支付信用分等应用,以及城市大脑、市政、石油、石化等面向各行业的底层性服务。

同样也是从2015年开始,阿里在云上提供对外云服务,这也是目前阿里云排名前十的旗舰产品之一

关涛表示,MaxCompute的功能和能力和Hadoop是同样场景,但是其实现并非基于Hadoop,而是按照从存储到计算都完全自研的系统。它有两个唯一性:

其一,MaxCompute所做的是一个非Hadoop的系统测试;

其二,该系统在10年前开始做时,即按照云原生的角度设计,是第一个以云平台的方式做这个测试的,而此前接入此测试的基本属于Hadoop体系的原版或改进版,以线下自己买服务器这种方式来做。

这对计价系统、计费系统、整个BigBench的体系都有改变。他举例道,之前的计费计价模式是,如果购买线下服务器可能要3年,而测试只用3天,但在云上的话,因为云端本来就是开箱即用,不用时也不收费,无需做采购硬件和应用规划,时间上只用算3天即可。

阿里云与英特尔认为,云是未来发展的方向,大家会慢慢自建机房的方式转向云。

六、升级大数据平台所面临的挑战

在采访期间,关涛从多个维度分享了升级大数据平台可能会面临的挑战。

从最底层看,虽然大数据平台是分布式系统,但最基本的单元实际上是每个机器上运行的算子。这个算子运行在下层硬件的操作系统之上的,是最基础的优化,需考虑怎么样让底层设计更快、怎样支持下层硬件。再往上是多机之间的网络通讯问题,再往上是分布式系统的另外一点,叫水平拓展。

另外一个挑战是,如何能在10万台规模上做到对应的水平。举例而言,以前是5万台,增加到10万台后,性能能否按照服务器数量的增长水平翻一番。

如果分布式系统只有几十台、几百台服务器可能比较容易,但到万台规模还是比较难的,特别是当达到10万台规模时,这些机器甚至都不在一个数据中心里面。

比如10万台机器分散在杭州、内蒙、河北,要使得在用户看来这10万台机器是一体的,而实际上它又是分布式的,其调度系统、智能调度数据和作业使它们在10万台机器上能畅通地浏览,这里面包含负载均衡、调度策略的平衡,还要考虑偶尔某些机器坏掉的情况。

另外,TPCx-BB测试不仅看速度,还要看成本,这也是大数据平台的客户所在意的两个指标。而仅仅是机器数量的增多,会导致成本上升,如何实现两者的平衡同样是一个考验。

七、阿里大数据平台的三个特点

关于阿里大数据平台的特点,关涛谈到评测、具体能力和系统特点等三个角度。

从评测层面来说,阿里应该是国内做所有大数据评测中评价最高的一家公司。

从具体能力来说,阿里较早开始做云计算、大数据,当初最早发现很多开源的技术很难达到阿里内部和他们所认为的云成本控制要求,因此选择了更艰难的自研之路,需要更多的资源投入、自己建标准。“但是我们花时间坚持下来了。”关涛说。

从系统特点来说,其系统有如下几个方面。

第一方面,阿里非常关注性能和成本,包括底层实现,比如阿里更多在大数据平台下层用C++代码,而大部分大数据平台都是用Java来做的。我们C++可以更容易发挥优势,同时在优化层面也可以更容易。

第二方面,阿里也是一家大数据的公司,有非常多的数据,其大数据系统经过阿里巴巴业务的充分锤炼和实践。它既包括蚂蚁金服这种金融级大数据的要求,也包括双十一极致峰值冲击的要求。

第三方面,其研发团队背后靠的是阿里研究体系“达摩院”,MaxCompute也是“达摩院”加持的大数据平台。

在偏硬件层面,阿里云和包括英特尔在内的企业合作,这种合作也会给他们带来非常好的性能提升。

结语:大数据是AI的数据支撑底座

在当日上午的主论坛中,阿里巴巴副总裁贾扬清提到一个概念:“AI算法孕育于数据的土壤。”他说,由于深度学习的发展,人们发现更多数据往往带来更好性能;真正落地的实际应用背后都有大量数据在支撑;数据有非常大的多样性和复杂性,需要一套成熟的方法论做数据清洗、建模。

会后采访期间,关涛也表达了相似的看法,他表示大数据是AI的数据支撑底座,在阿里,大数据平台和AI平台是一个“双生系统”。比如,AI平台的数据是从大数据平台上来的,在前一部分数据的处理也是由大数据平台来做,完成后会推到AI平台上做机器学习和深度学习的处理,数据也可能再回流大数据平台做其他的工作。

阿里云大数据服务如何创世界纪录?对话英特尔阿里云高管

同样,戴金权认为大数据和AI在真正的现实应用中应紧密联合在一起。如何把AI模型应用和大数据处理分析的一整套流水线打通、将不同的组件更好的结合,是英特尔、阿里云都在做的事情。

他对国内大数据技术的实力非常认可,认为国内外大数据技术都在同一个起跑线,都能做到非常好的水准。全世界的工程师都在合作,某种意义上,国内的数据更大、应用场景更多。