阿里底层自研技术大爆发!推龙蜥操作系统、第四代神龙架构,AI大模型M6参数破10万亿

智东西(公众号:zhidxcom)
作者 | 李水青
编辑 | 心缘

智东西10月20日消息,在今年“元宇宙”、机器人等五花八门应用荟萃的阿里云栖大会上,阿里云照例带来一场关于底层技术创新的盛宴。

今天上午在杭州云栖小镇主会场,阿里宣布推出飞天云操作系统新一代虚拟化技术第四代神龙架构,发布全新操作系统“龙蜥”并宣布开源,同时,推出宣布自研云原生关系型数据库PolarDB重磅升级,实现内存池化、多主架构、HTAP实时分析等创新功能。

此外,阿里还推出大数据+AI一体化平台“阿里灵杰”,这一平台已支持达摩院多模态大模型M6已升级至全球首个突破10万亿参数的AI模型,规模超越此前谷歌发布的1.6万亿Switch Transformer模型。

在“双碳”背景下,阿里云也更重视科技减碳。阿里巴巴集团副总裁、阿里云智能基础设施事业部总经理周明宣布,阿里云将加速在新型数据中心内清洁能源的使用,位于河源的数据中心最快明年将100%使用清洁能源。

一、发布并开源龙蜥操作系统,投入20亿

会上,阿里巴巴集团副总裁、阿里云智能基础产品事业部负责人蒋江伟带来《永不止步的云上创新》演讲,宣布发布并开源全新“龙蜥”操作系统、飞天云操作系统新一代虚拟化技术第四代神龙架构,同时,阿里达摩院操作系统实验室也宣告成立。

据蒋江伟解读,龙蜥操作系统定位于服务器端,支持X86、ARM等多种芯片架构和计算场景,在阿里巴巴打磨十年且有效支撑了历年天猫双11。据称龙蜥针对云原生应用开发做了多重优化,为云上典型场景带来40%的综合性能提升,故障率降低50%,兼容CentOS生态,支持一键迁移并提供全栈国密能力。

阿里底层自研技术大爆发!推龙蜥操作系统、第四代神龙架构,AI大模型M6参数破10万亿

蒋江伟宣布,龙蜥操作系统完全开源,通过开源社区和操作系统厂商等形式提供服务。未来,阿里云计划为龙蜥投入20亿专项资金,并联合100家生态合作伙伴推动生态建设,提供至少十年技术支持。

二、飞天云操作系统更新,推出第四代神龙架构

除了龙蜥操作系统,阿里云还带来了飞天云操作系统新一代虚拟化技术,第四代神龙架构。

飞天是阿里云在2009年推出的自研超大规模通用计算操作系统,可以将遍布全球的百万级服务器连成一台超级计算机,以在线公共服务的方式为客户提供计算能力,多年来不断迭代,成为阿里支持国家新型基础设施建设战略的一大底座。

蒋江伟指出,第四代神龙架构最大特征就是对IO进行了加强。通过芯片加速IO引擎,不用改代码实现性能优化。举个例子,阿里有一家供应商,提供供应链系统,前两年为了优化性能,需要3-6个月时间做分布式架构改造。现在基于神龙架构4.0,能够不修改代码直接升级。

阿里底层自研技术大爆发!推龙蜥操作系统、第四代神龙架构,AI大模型M6参数破10万亿

作为飞天操作系统新一代虚拟化技术,除了IO加速,第四代神龙架构还在芯片级安全、云原生弹性和高速网络领域做出优化,将云计算首次带进5微秒时延时代。

尤其在高速网络方面,据称,第四代神龙架构首次搭载全球唯一的大规模弹性RDMA加速网络,网络延迟整体降低80%以上。蒋江伟公布了一组测试,可以看到,在Nginx SSL场景下,第四代神龙架构比前代性能最高提升40%,在指定规格的虚拟场景下,eRDMA对比TCP性能最高提升30%。

阿里底层自研技术大爆发!推龙蜥操作系统、第四代神龙架构,AI大模型M6参数破10万亿

此外,据称在深度学习场景下,第四代神龙可提升分布式NLP和视觉计算30%的训练性能;在大数据场景下,可提升Spark30%的计算性能;在数据库场景下,MySQL性能最高提升60%、Redis混合读写吞吐量可提升130%;NginxSSL建连每秒吞吐性能提升420%。

三、科技减碳,有数据中心100%使用清洁能源

阿里巴巴集团副总裁、阿里云智能基础设施事业部总经理周明带来了关于数字基础设施的新进展。

他谈到,一提到数据中心大家联想到的就是能耗,在“双碳”政策下,数字基础设施业务需要不断创新,帮客户实现快速迭代、降低成本、资源弹性。作为To B服务商,主要目的是为客户做好服务,做深基础。

怎么做?

周明提出三个关键词:1、稳定安全。2、资源创新。3、绿色环保。值得一提的是,在自研创新方面,阿里云展示出了液冷数据中心、异构计算等多个创新点。有人可能会问,许多技术或器件都可以买来,为什么要自研?对此,周明解释,自研并非为了自控,而是为了解决一些实际问题,比如团队2019年就开始使用自研交换机,就大大提高了联网效率;比如传统风冷难以解决散热问题,阿里才自研液冷技术。

当下,科技减碳成为新型数据中心的关键词。周明宣布,阿里云将加速在新型数据中心内清洁能源的使用,位于河源的数据中心最快明年将100%使用清洁能源。

阿里底层自研技术大爆发!推龙蜥操作系统、第四代神龙架构,AI大模型M6参数破10万亿

同时,阿里云在选址布局上选择张北、乌兰察布数据中心,正是看中光能、风能及当地气候适合自然风冷散热,从而节省电能。此外,新技术如液冷技术融合AI应用,都加速了阿里云绿色节能技术创新及迭代升级。

面向未来,周明认为有四大关键词:算力中心化、云端一体、云原生、绿色节能。他说:“绿色是检验数据中心的黄金标准。”

四、数据库升级,业内首次实现三层池化

看完基础设施及计算网络两大底层技术更新,阿里云智能数据库事业部总负责人李飞飞带来了关于阿里云数据库的新技术发布。

李飞飞宣布了自研云原生关系型数据库PolarDB重磅升级,实现内存池化、多主架构、HTAP实时分析等创新功能,进一步引领云原生数据库技术的持续创新。据称,PolarDB数据库性能比MySQL高6倍,成本只有传统商用数据库的1/10。

阿里底层自研技术大爆发!推龙蜥操作系统、第四代神龙架构,AI大模型M6参数破10万亿

李飞飞解读,PolarDB实现了以下三项创新:

1、业内首次实现内存与计算、存储的三层解耦,实现内存池化,使得弹性能力呈数量级提升,同时大幅度降低成本;

2、第二,上线多主架构,进一步提升可用性、并发处理、弹性能力,高效应对像“双11”一样的流量洪峰;

3、第三,成为真正的HTAP数据库系统,可同时处理OLTP和OLAP型混合负载。

为了更好服务政企市场客户,阿里云同日还正式发布重磅数据库产品DBStack,可以非常敏捷地部署在客户本地IDC或者IaaS平台上,助力金融、政务、运营商、交通等行业客户替换传统商业数据库,加速上云。

此外,在人才培养方面,阿里云还正式发布阿里云数据库ACP认证,包含关系型数据库和数据仓库两个方向,通过系统化培训与认证体系,培养更多数据库专业人才。

五、阿里灵杰 :“开箱即用”大数据+AI

会上,阿里巴巴集团副总裁、阿里云计算平台事业部负责人贾扬清还带来了“阿里灵杰”,集成阿里整体大数据+AI能力对外开放,让企业及开发者可“开箱即用”,能更专注于应用开发,能普惠化、插件式的业务交付。

据介绍,“阿里灵杰”包含机器学习平台PAI、云原生大数据计算服务MaxCompute、实时计算Flink版、大数据开发治理平台DataWorks、实时数仓 Hologres等产品,可调动规模高达10万台以上计算集群,拥有云边端一体的高性能训练和推理引擎,能提供毫秒级延迟的实时数据分析能力等,是中国最大的大数据+AI一体化平台。

贾扬清透露,基于“阿里灵杰”的分布式训练优化技术,达摩院多模态大模型M6已升级至全球首个突破10万亿参数的AI模型,规模超越此前谷歌发布的1.6万亿Switch Transformer模型。

此外,贾扬清还首次提出了大数据+AI一体化平台的“4S”标准,即大模型(Scale)、高效率(Speed)、易用性(Simplicity)、场景化(Scenario),为人工智能行业发展提供借鉴。

结语:“双碳”经济、数字化转型催促新基建升级

近年来,阿里云飞天操作系统快速迭代,从去年4月推出专有云支持企业客户在自己的数据中心部署,到今年5月宣布全面兼容X86、ARM、RISC-V等多种芯片架构,实现“一云多芯”,如今阿里云飞天操作系统又在技术架构上实现新迭代。更值得一提的是,阿里云推出全新操作系统“龙蜥”,并计划投入20亿专项资金,有望为云原生应用开发带来新的体验。

当下,随着政企数字化转型步伐加快,不仅对数据存储与处理安全、效率的需求变强,对于绿色减碳的要求也在变高,这也催促像阿里云这样的基础设施服务商不断进行技术创新迭代。