探秘百度阳泉云计算中心:8大机房模组、16万台服务器、20倍交付效率

智东西(公众号:zhidxcom)
文 | Lina

6月15日,智东西等数家媒体受到百度邀请,前往其位于山西省阳泉市的云计算中心进行参观走访,介绍了有关百度阳泉云计算中心的整理运营状况、从供电到散热的众多节能技术、各类百度自研的服务器(“北极”、“冰山”、“鲲鹏”、“X-Man”等)以及百度是如何使用人工智能对该中心进行预测与调控,做到智能控制、智能运行。

值得一提的是,山西阳泉正是百度创始人李彦宏的家乡。阳泉云计算中心位于阳泉经济开发区东区,从室内坐大巴需要约20分钟到达。

一、自报家门:8大机房、12万平米、16万台服务器

根据工作人员介绍,百度阳泉云计算中心从2012年8月19日奠基开工(当时项目计划投资47.08亿元)2014年开始投入使用,截止至笔者发稿日已经安全工作了1082天了。当初计划了四期工程,8个机房模组,目前已经完成了三期6个机房的投运,最后一期也在紧张建设,即将投入使用。

探秘百度阳泉云计算中心:8大机房模组、16万台服务器、20倍交付效率

阳泉云计算中心建筑面积有12万平米,拥有400+项专利技术,设计容纳16万台服务器,是目前为止是亚洲建成投运的最大数据中心之一,也是百度在全国几十个大型数据中心中规模最庞大的一个。

同时,阳泉云计算中心按照T3+标准设计建照,可用性为99.99%+——这句话是什么意思呢?那就是全年不可用时间不能超过52分钟。年均PUE1.11(数值越接近1,能效比越高)。而且,虽然位于煤炭大省山西,但阳泉云计算中心的清洁能源使用比例非常高,目前使用太阳能、风能等清洁能源的占比达到了20%。

二、进门感叹:人真少

从大门进去,首先要过安检并进行登记,阳泉云计算中心的安全等级比较高。首先映入眼帘的是位于园区中心的一栋椭圆柱形建筑,这就是阳泉云计算中心的ECC监控中心,外围环绕着编号为D01-D08的8座方形建筑,这就是上文提到的8个机房模组。

探秘百度阳泉云计算中心:8大机房模组、16万台服务器、20倍交付效率

探秘百度阳泉云计算中心:8大机房模组、16万台服务器、20倍交付效率

在园区里走着,一个最大也是最明显的感觉就是——没人。由于数据中心全部采用先进的自动化、智能化控制技术,需要巡视、维护、调控人员极少,每个班组2-3人就可以完成2个模组约3万平米7*24小时运营。因此诺大一个12万平米的园区建筑里,基本上很难看到人。

探秘百度阳泉云计算中心:8大机房模组、16万台服务器、20倍交付效率

进入中间大楼的ECC监控中心后,可以看到这是一栋宽敞明亮的4层建筑,以黄白色调为主,在百度带领大家参观的其中一个控制室里,我们可以看到各个机房的实时参数、监控视频等信息,涉及机密这里就不上图了~

三、重头戏:机房参观

好了,接下来就是本次参观介绍的重头戏,机房参观。

在阳泉云计算中心安装8个机房模组的服务器中,包括了各类百度自研的服务器:如“北极”、“冰山”、“鲲鹏”、“X-Man”等,其中90%以上都是“北极”整机柜服务器。

“北极”(天蝎)自研整机柜服务器——采用共享电源、共享风扇架构,部件全部标准化、模块化、一体化,支持40摄氏度环境温度长期运行。总拥有成本(TCO)降低15%,交付效率提升20倍——这句话更直观地换算过来什么意思呢?那就是原先需要1个月上线的服务器,现在只需要1天。

探秘百度阳泉云计算中心:8大机房模组、16万台服务器、20倍交付效率

“冰山”自研高密度存储服务器——创新的高密度存储解决方案,支持储存池化设计和分层存储,单台服务器可存储180TB数据,有力地支持了百度的私有云、公有云业务。

“鲲鹏”自研高温服务器——业界首次规模商用的高温服务器(一般服务器送风温度是22-24度,鲲鹏可以支持送风温度达到45度)同时具备耐腐蚀性,与IDC强耦合,彻底实现全自然新风冷却。

探秘百度阳泉云计算中心:8大机房模组、16万台服务器、20倍交付效率

“X-Man”自研AI服务器——业界首个基于PCIe Fabric架构的16卡GPU服务器,兼容支持FPGA。支持异构计算资源池化,可扩展到64GPU以上,提供1000TOPS量级计算能力,能够广泛应用于语音、图像、NLP、搜索、无人车加速计算场景。

四、清洁供电与散热节能

在供电方面,阳泉云计算中心去除传统的UPS,首次采用 HVDC offline(高压直流离线)技术、分布式锂电池(BBS)供电技术,把供电效率从90%提升到99.5%。阳泉云计算中心同时也是国内首个采用太阳能光伏发电的数据中心,在顶楼铺设太阳能光伏面板直接并网发电,直接给服务器使用,节能的同时还减少污染物排放。

探秘百度阳泉云计算中心:8大机房模组、16万台服务器、20倍交付效率

不过,利用太阳能光伏面板发电的电量占的还是用电量的少数,阳泉云计算中心在2017年与电厂签约的2600万度风力发电,使得清洁能源的占比达到20%。

在散热方面,阳泉云计算中心96%的时间可以使用室外冷空气实现免费冷却,换算过来一年里有14.6天才需要全部开冷水机组制冷,从而节省了大量的能源。

五、AI在云计算中心中的应用

一方面,云计算是AI的底层能力之一,百度阳泉云计算中心所提供的计算能力可以为用户提供AI-enable网络,其中包括基于cookie机器学习模型的IP地理定位、基于交互机日志的故障预测、业务网络质量的测量与感知、基于机器学习的攻击流量监测系统等等。

而另一方面,AI也被应用在了云计算中心的智能控制、智能运行上。通过采集环境参数、设备功耗、运行模式、动作状态等参数,再将它们使用AI算法进行计算优化(此处的AI包括HPC、机器学习、深度学习等,解决不同问题会用不同模型,但大部分训练都是用百度的PaddlePaddle开源平台)。

探秘百度阳泉云计算中心:8大机房模组、16万台服务器、20倍交付效率

通过百度的人工智能技术,阳泉云计算中心如今做到智能预警、智能调度、智能运维——而这也是上文提到的园区员工很少的原因之一。预警、调度、运维包括许多方面,以下是工程师介绍的其中三点:

1)自动运营:大幅缩短电力切换时间。当突遇停电时,传统备用发电机电源切换要15分钟,但现在通过电力监控系统全自动切换,可以达到分钟级别的切换速度,最快只需要30秒。

2)智能调度。通常数据中心用电是有波动的,服务器存在闲时忙时,波峰波谷。为了提高服务器及机房的利用率,通过AI技术预测对在线业务需求进行预测,通过在线业务及离线业务混布,闲时调度更多离线业务,跑离线计算、训练模型。

3)智能预测:判断网络流量是否异常。用AI模型进行计算、判断某个流量到底是用户的正常操作行为还是恶意攻击流量。

结语:智能时代的基础建设

在各类科技、IT主题的美剧中(比如《硅谷》),服务器机房一直是个被人拿来调侃的地方。就连今年苹果的WWDC的开场视频也拿一位刚入职的科技宅男坐在服务器机房里,无意中碰掉了供电插头而引发一场动乱的

当下随着人工智能与万物互联的普及,接入网络的设备越来越多,数据计算量也越来越大,云服务、云计算已经慢慢变成智能时代的下层建筑,成为如供水、供电、网络通信等我们日常生活中不可或缺的基础设施。

目前,无论是国外的亚马逊云、微软云、还是国内的阿里云、百度云等等,都纷纷继续着对云计算数据中心的投入建设,如百度一般,不少公司都是从几年前就开始布局建设,在近年陆续投建使用,为企业的人工智能与万物互联提供云服务与云计算能力。

探秘百度阳泉云计算中心:8大机房模组、16万台服务器、20倍交付效率