智东西(公众号:zhidxcom)
作者 | 李水青
编辑 | 心缘
尽管近期大模型产业打得不可开交,但华为的AI野心,与疯狂的价格战和刷榜竞赛无关!
智东西6月21日东莞报道,今日,中国南方的阳光明媚热烈,在下午开幕的华为开发者大会2024上,华为常务董事、华为云CEO张平安重磅发布盘古大模型5.0。
华为AI核弹“Harmony Intelligence(鸿蒙原生智能)”滚烫发布,呈现出华为AI“云+端”的行业独一家打法,同时盘古5.0大模型的鼎力支持更显耀眼。
盘古大模型5.0实现从十亿级到万亿级参数版本全覆盖,小到十亿级参数的Pangu E系列,可支撑手机、PC等端侧应用;大到万亿级参数的Pangu S系列,能够帮助企业处理更为复杂的跨领域多任务。
在技术能力方面,盘古大模型5.0在全系列、多模态、强思维三大方面带来全新升级,同时在现场具身智能机器人与真人交互、视频生成及AI语音合成、模型物理世界3D生成等应用展示一轮接着一轮。
▲现场演示基于盘古大模型5.0的具身智能机器人
但更加引起关注的是,华为云一口气发布了盘古钢铁大模型、盘古高铁大模型、盘古具身智能大模型、盘古工业设计大模型、盘古安全大模型及盘古媒体大模型六大模型,通过其特有的“行业难题死磕者”气质,引得观众阵阵“遥遥领先,一直领先”呼声。
但华为云的“杀招”远不止如此。
在盘古5.0背后,华为云昇腾AI云服务已快速迭代一年,服务超100个业内主流大模型。同时,华为云ModelArts studio、CodeArts、DataArts、MetaStudio等多条生产线也基于盘古大模型实现升级,下一代云基础设施CloudMatrix助力模型训练效率提升68%,业界首创EMS弹性内存存储正式发布,都在重塑华为云服务。
此外,华为云还首次揭秘了盘古5.0诞生的背后技术,包括公布了昇腾亲和的新模型架构π、MindStar技术等十几项核心技术点,讲解了其如何实现数据高效、效率高效、参数高效。
一、从10亿到万亿参数全覆盖,多模态强思维,打造“世界模型”?
张平安宣布,盘古5.0在全系列、多模态、强思维三个方面实现全新升级。而在他近40分钟的演讲中,透露华为云不仅将热门的视觉理解与生成、复杂任务推理等高阶能力升级,还多次提及模型“遵循物理规律”,隐隐透露出华为云打造“世界模型”的野心。
1、全系列:从十亿级到万亿级参数,从手机到云全覆盖
盘古大模型5.0包含不同参数规格的模型,以适配不同的业务场景。
十亿级参数的Pangu E系列可支撑手机、PC等端侧的智能应用;百亿级参数的Pangu P系列,适用于低时延、高效率的推理场景。
千亿级参数的Pangu U系列适用于处理复杂任务;万亿级参数的Pangu S系列超级大模型能够帮助企业处理更为复杂的跨领域多任务。
2、多模态:支持10K超图像识别,生成内容模拟物理世界
本次鸿蒙原生智能更新的小艺智能体,很多能力用到了盘古5.0多模态理解和生成能力。
盘古大模型5.0能够更好更精准地理解物理世界,包括文本、图片、视频、雷达、红外、遥感等更多模态。
在图片和视频识别方面,盘古大模型5.0可支持10K超高分辨率。比如当被问到《清明上河图》中赵太丞家有多少人,盘古5.0可以在占全图1/200的画面中,识别出细小画面和汉字,并得出“4个人”这一正确答案。
在内容生成方面,盘古大模型5.0采用业界首创的STCG(Spatio Temporal Controllable Generation,可控时空生成)技术,聚焦自动驾驶、工业制造、建筑等多个行业场景,可生成更加符合物理规律的多模态内容。
3、强思维:思维链结合策略搜索,支持复杂推理
复杂逻辑推理是大模型成为行业助手的关键。盘古大模型5.0将思维链技术与策略搜索深度结合,极大地提升了数学能力、复杂任务规划能力以及工具调用能力。但华为云今日并未公布其在各大榜单中的得分情况。
二、具身智能机器人现场“活了”,推出六大行业模型
基于盘古具身智能大模型的人形机器人首次登场,现场演示了复杂任务执行。
名为“夸父”的人形机器人能够在要求下与张平安击掌,分辨位于它面前的与华为有关的物品,并在得知主持人口渴时,将面前桌上的水递给了口渴的主持人。
去年,张平安在发布盘古3.0时称,华为云盘古大模型“不作诗,只做事”。今年,盘古5.0已经进入各行各业做事,解决行业难题。
在工业设计领域,盘古大模型可以让汽车的造型设计时间大幅缩短,助设计师直接输出成3D文件;可以支持建筑师在输入设计草图的情况下,生成彩色并带有纹理的建筑群360°实景视频。
在媒体产业,华为云推出盘古媒体大模型,通过在语音生成、视频生成和AI翻译三方面的技术创新,重塑内容生产和应用的新模式。
盘古媒体大模型在视频生成方面取得了显著成果,支持将实拍视频转换为不同风格的高清动漫,现场演示视频中演员的舞蹈、武打等大运动轨迹能保持一致视觉效果,角色的面貌特征也保持前后一致。
在语音生成方面,盘古大模型通过AI原声译制与视频生成能力,实现了将原片译制成不同语言的视频,还能同步生成新的口型。
在AI翻译方面,华为云会议基于盘古大模型实现了升级,支持同声传译,翻译准确性高于93%,时延小于5秒,解决跨语言沟通难题。参会者还基于数字人分身功能,在自己不出面的情况下,让实时合成的数字人分身来替自己发言,讲述起来流畅自然。
但真正更令现场沸腾的,是华为云盘古大模型还进入了更多专业化更强、与生产息息相关的行业。
在高铁行业,基于盘古高铁大模型,华为云为高铁检测装上了“盘古眼”,帮巡检工人减少了巨大的工作量。一列动车的3.2万个故障检测项点,本来需要4人花费2小时进行反复、细致地检查,用盘古大模型可以自动识别准确率可达99%。
再拿钢铁大模型来说,宝武集团是中国最大的钢铁集团,年钢产量超1亿吨。据称盘古钢铁大模型已经帮他们把大模型与高炉炼铁和热轧钢带环节结合了起来,通过现场学习实现实时预测最优参数,最终效率提升了数十倍。
除此之外,在气象、医药等其他行业,盘古大模型也已经在助力解决行业难题。死磕行业的打法,体现了华为云有别于很多其他大模型厂商的独特气质。
三、昇腾AI云已服务100+大模型,免费为开发者提供一台云主机
华为云的“杀招”不止于此,盘古5.0升级背后,是华为云昇腾AI云服务的一年迭代优化。
目前,华为云已经在贵安、乌兰察布和芜湖,构建了三大AI算力中心,支持大模型产业发展。
根据华为云官方数据:业界万亿参数模型训练的平均无中断时长约2.8天,昇腾AI云服务可实现40天无中断;业界平均集群故障恢复时间约60分钟,昇腾AI云服务可以缩短到10分钟。同时,昇腾AI云服务能将大模型的资源开通时间从月级缩短到天级,加速大模型的开发。
目前昇腾AI云服务已全面适配行业主流的100多个大模型,以云服务的方式协助客户开发、训练、托管和应用模型,打造百模千态的“黑土地”。
张平安宣布,华为发布华为开发者布道师计划,未来3年计划发展超过3000名华为开发者布道师。
了让开发者更好地学习和使用这些技术,华为云为每个新生态的开发者免费提供一台云主机、一套开发工具和5GB的云存储空间。
华为云通过全栈系统性创新结合AI重塑云服务,打造AI Native的云。
通过下一代云基础设施CloudMatrix,华为云推动单体算力向矩阵算力发展。盘古5.0在同等NPU算力基础上,CloudMatrix对比传统服务器集群实现模型训练效率提升68%。
华为云还宣布业界首创EMS弹性内存存储正式发布。通过业界首创EMS-弹性内存存储,华为云助企业打破AI内存墙,释放极致算力。
四、盘古5.0技术首揭秘:三大类技术优化,推出新模型架构π
华为云首次公布揭秘盘古5.0诞生的背后技术,涉及数据高效、效率高效、参数高效三大方面。
在数据高效方面,基于两大关键技术——数据合成和数据课程学习,华为云提升数据利用率,试用优质的数据激活盘古5.0模型更多的能力。
同时,华为云推出了昇腾亲和的新模型架构——π。一方面团队基于增广残差连接的模型增强,缓解特征坍塌;另一方面,基于级数激活函数的非线性增强,使得模型与昇腾架构更友好。
面对大集群训练千亿稠密大模型,技术挑战在于大集群训练如何提升算力利用率,华为云通过多副本并行+计算通信流水,以及大集群调度与通信优化,使得隐藏通信降低70%,通信和等待时间从30%降至10%。
在多模态上,团队主要做了两大关键技术,一是统一视觉编码器,二是采用动态分辨率,从而克服当下编码器无法兼顾自然图像和文档图表的问题。
在强思维,也就是复杂推理方面,华为云通过MindStar技术,围绕多步生成+策略搜索两大关键方法,从而将模型的推理能力提高30分,使得百亿模型达到千亿模型的能力。
五、生产线大升级,用大模型重塑华为云服务
工欲善其事,必先利其器,华为云还用大模型重塑了其多条生产线。
在模型开发方面,华为云ModelArts studio大模型即服务平台支持便捷大模型开发与应用,通过0代码、免配置完成模型开发与微调,通过多模型智能路由降低模型调用成本超25%,沉淀50+智能代理,赋能RPA、政务、会议等多个方面的企业内部助手。
继去年接入大模型后,今年华为云通过结合AI Agent能力,将CodeArts软件开发生产线从单点智能升级到项目级智能。相比业界主流方案,CodeArts在问题定位率上提升了73%,项目级问题修复成功率提升了57%,让开发者能轻松实现项目级智能。
在数据治理方面,华为云DataArts数据治理生产线也实现升级,将盘古大模型和华为18年的数据治理经验相结合,一是将沉淀在企业海量数据中的业务规则、决策流程、行业经验发掘出来,形成企业知识湖;二是基于大模型,实现数据集成、开发、治理、分析等生命周期的自动化、智能化,从而降低智能化管数、用数的门槛。
在MetaStudio数字内容生产线方面,华为云将多模态大模型和生成式AI技术相结合,基于800多万小时的音视频数据和3000多万的3D资产,打造了盘古媒体大模型;将盘古媒体大模型和华为有深厚积累的音视频编解码、3D模型物理仿真等结合用于AI内容生成,突破了当前大模型不懂物理世界的局限。
在数据库方面,华为云将产品文档、专家知识、运维经验等数据库专业数据和大模型相结合,构建盘古数据库大模型,实现了GaussDB数据库的开发、测试、迁移、运维的全生命周期智能化,提升开发人员和DBA的使用效率。
在安全方面,华为云用盘古大模型升级华为云安全服务,打造了面向安全领域的盘古安全大模型,学习了华为云每年4500亿次攻击对抗的攻防经验,600多次的护网演练流程脚本,和400多个行业的攻击场景等数据,让华为云能够快速、精准的给出安全治理咨询的专业意见。
结语:华为云AI原生布局初现,盘古5.0将大模型深扎行业
今日,中国人迎来了自己的操作系统,纯血鸿蒙正式发布,与此同时华为鸿蒙原生智能的大招炸场,背后则是华为云盘古5.0大模型的硬核支持。
去年,华为云在盘古3.0发布时提出“不作诗,只做事”,今年随着盘古5.0的发布,华为云提出“不仅要做事,还要做最难的事”,从三大技术更新到行业大模型,从车间到工地,盘古大模型正在融入更多行业解决实际难题。
当下,如火如荼的“百模大战”拼价格、比参数、刷榜单,竞赛到了白热化阶段。但与此同时,大模型是不是同质化了、停留在GPT-3.5水平了?引起产业人思考。华为云为大模型的中国方案给出了新思路,通过与千行百业的实际问题结合,大模型有望在实践中迸发新的生命力。