智东西(公众号:zhidxcom)
作者 | 李水青
编辑 | 心缘
智东西7月7日东莞报道,在今日启动的华为开发者大会2023(Cloud)上,华为常务董事、华为云CEO张平安宣布推出盘古大模型3.0,从通用大模型、行业大模型及场景模型“L0~L2”三个层面为行业提供大模型服务。
盘古3.0提供100亿参数、380亿参数、710亿参数和1000亿参数的系列化基础大模型,预训练数据中包含了超3万亿tokens,推出了NLP大模型的知识问答、文案生成、代码生成,以及多模态大模型的图像生成、图像理解等全新能力集。
同日,华为云昇腾AI云服务在乌兰察布和贵安上线。张平安称,昇腾AI云服务可提供更长稳的AI算力服务,千卡训练30天长稳率达到90%,断点恢复时长不超过10分钟。昇腾AI云服务支持华为MindSpore以及PyTorch、TensorFlow等主流AI框架,支持便捷迁移。
▲华为云推出昇腾AI云服务
随着ChatGPT在全球爆火,当下全球已发布上百个大模型,中国内已有80多个大模型发布。华为云于2020年就启动盘古大模型立项,2021年4月推出盘古系列大模型,包括业界首个千亿参数中文语言预训练模型,并在当时就现场演示了对话机器人。然而,华为今年上半年却一直隐而不发,引起产业的关注。
为何华为云今年上半年一直没有消息?
张平安现场首先正面回答了这一问题。他说,华为盘古大模型“不写诗,只做事”,华为的理念是AI for Industry(AI赋能产业),因此要将盘古大模型致力于深耕各个行业。盘古大模型在矿业、铁路、气象、金融、政务、制造、软件开发、数字内容生成等多个领域的落地成果在现场得以展示。
▲华为云团队现场演示政务大模型用于图文结合问答
现场,智东西与部分媒体对张平安等华为高管进行了采访。
当被问及华为云做大模型的差异化竞争力时,张平安尤其强调行业结合:“我们的科学家、数学家可以下到矿井、蹲车库、下田头,因此盘古真的是和行业的痛点深度结合而来,这是华为盘古大模型最大的优势。”就在昨日,国际顶级学术期刊《自然》(Nature)登载了华为云盘古气象大模型成果,与张平安的阐述形成呼应。
一、盘古3.0面世:NLP、多模态新升级,模型服务“开箱即用”
张平安说:“希望盘古大模型成为每个行业、企业和个人的专家助手,让工作更轻松。”盘古大模型3.0是一个面向行业的大模型系列,简单来说,主要通过以下“5+N+X”三层架构,在不同层面,构建不同的能力。
▲盘古大模型3.0的“5+N+X”三层架构
1、L0基础模型层:提供五大模型服务,NLP、多模态模型大升级
首先是L0基础模型层,包括自然语言处理(NLP)、视觉(CV)、多模态、预测、科学计算五个基础大模型,提供满足行业场景中的多种技能需求。
具体来说,盘古3.0为客户提供100亿参数、380亿参数、710亿参数和1000亿参数的系列化基础大模型,匹配客户不同场景、不同时延、不同响应速度的行业多样化需求。
同时,盘古3.0提供全新能力集,包括NLP大模型的知识问答、文案生成、代码生成,以及多模态大模型的图像生成、图像理解等能力,这些技能都可以供客户和伙伴企业直接调用。张平安说,无论多大参数规模的大模型,盘古提供一致的能力集。
▲盘古L0基础大模型层架构图
盘古大模型3.0的预训练数据中包含了超过3万亿tokens,使用超1000+TB数据训练,指令微调数据达千万级,因此也可以称之为“读万卷书”。
2、L1行业大模型层:行业通用大模型+客户专有大模型,“行万里路”
然后是L1层行业大模型。如果说最底层的基础模型是做好海量基础知识的学习,相当于“读万卷书”,打好基础;那么行业大模型、场景模型就相当于“行万里路”。
在L0基础大模型之上,针对不同行业和场景,客户可基于盘古3.0进行专项知识和经验的训练。一方面,L1层提供使用行业公开数据训练的行业通用大模型,包括政务、金融、制造、矿山、气象等大模型;另一方面,客户也可以基于自有数据,在盘古大模型的L0和L1层上训练自己的专有大模型。
▲盘古L1行业大模型层架构图
3、L2场景大模型层:专注细分场景,“开箱即用”
最后是L2场景大模型层。张平安说,华为云为客户提供了更多细化场景的模型,更加专注于政务热线、网点助手、先导药物筛选、传送带异物检测、台风路径预测等具体行业应用或特定业务场景,为客户提供“开箱即用”的模型服务。
张平安谈道,盘古大模型采用完全的分层解耦设计,可以快速适配、快速满足行业的多变需求。客户既可以为自己的大模型加载独立的数据集,也可以单独升级基础模型,也可以单独升级能力集。
在L0和L1大模型的基础上,华为云还为客户提供了大模型行业开发套件,通过对客户自有数据的二次训练,客户就可以拥有自己的专属行业大模型。同时,根据客户不同的数据安全与合规诉求,盘古大模型还提供了公用云、大模型云专区、混合云多样化的部署形态。
此外,华为云2000P Flops单集群的昇腾AI云服务在乌兰察布和贵安同时上线。
据张平安称,昇腾AI云服务可提供更长稳的AI算力服务,千卡训练30天长稳率达到90%,断点恢复时长不超过10分钟。昇腾云服务除了支持华为的AI框架MindSpore外,还支持PyTorch、TensorFlow等主流AI框架,框架中的90%算子,都可以通过华为的迁移工具从GPU平滑迁移到昇腾。
▲张平安:盘古大模型3.0采用全栈自研技术
二、气象大模型登Nature正刊,盘古发力行业“不作诗 只做事”
“盘古为行业而生,就要为行业着想,更好地服务千行百业的客户。”张平安说。
7月5日,国际顶刊Nature登载了华为云盘古气象大模型研发团队研究成果,成为近年来首篇以中国科技公司为唯一署名单位发表的Nature正刊论文。审稿人高度评价该模型:“华为云盘古气象大模型让人们开始重新审视气象预报模型的未来,模型的开放将推动该领域的发展。”
本次,张平安谈及这一成果的行业落地情况。作为首个精度超过传统数值预报方法的AI预测模型,盘古气象大模型的预测速度也有大幅提升。原来预测一个台风未来10天的路径,需要在3000台服务器的高性能计算机集群上花费5小时进行仿真。现在基于预训练的盘古气象大模型,通过AI推理的方式,研究者只需单台服务器上单卡配置,10秒内就可以获得更精确的预测结果。
▲盘古气象大模型落地全球多地
除了气象大模型成果,张平安还在现场展示了盘古大模型在政务、煤矿、金融、制造、医药研发、铁路等诸多行业发挥的价值。
比如在政务领域,华为云携手深圳市福田区政务服务数据管理局,上线了基于盘古政务大模型的福田政务智慧助手小福,能够精准理解民众咨询意图,改变传统的一网通办模式。据称,盘古政务大模型对超过20万条政务数据进行精调,包括12345热线、政策文件、政务百科等,掌握了丰富的法律法规、办事流程等行业知识。
在煤矿领域,盘古矿山大模型已经在全国8个矿井规模使用,一个大模型可以覆盖煤矿的采、掘、机、运、通、洗选等业务流程下的1000多个细分场景,让更多的煤矿工人能够在地面上作业,不仅能让煤矿工人的工作环境更加舒适,而且可以极大地减少安全事故。
▲盘古矿山大模型已在8个矿井复制使用
在铁路领域,盘古铁路大模型能精准识别现网运行的67种货车、超430种故障,无故障图片筛除率高达95%,成为货运列检员身边有力的数字助手,将列检员从每日数百万张的“图海”检测中解放出来。
在金融领域,盘古金融大模型可以对银行的各种操作、政策、案例文档进行预训练,能根据客户的问题,为柜台工作人员自动生成流程和操作指导,将原来需要平均5次的操作降低为1次,办结时间缩短5分钟以上。盘古大模型让数十万网点柜员都拥有自己的智慧助手。
在制造领域,过去单产线制定器件分配计划,往往要花费3个小时以上才能做齐1天的生产计划。盘古制造大模型学习了华为产线上各种器件数据、业务流程及规则以后,能够对业务需求进行准确的意图理解,并调用天筹AI求解器插件,1分钟即可做出未来3天的生产计划。
▲盘古大模型助力制造业降本增效
在药物研发领域,原来一款新药研发平均需要10年时间、花费10亿美金。盘古药物分子大模型助力西安交通大学第一附属医院刘冰教授团队发现全球40年来首个新靶点、新类别的抗生素,并将先导药物研发周期缩短至1个月、研发成本降低70%。
张平安说:“我们始终坚持AI for Industries的战略,在深耕行业的道路上不断前行。我坚信大模型将重塑千行百业,而每一个开发者,都将是改变世界的英雄。”
结语:深耕行业,国内大模型走深向实
回顾华为盘古大模型的发展历程,其在2021年就推出了NLP、CV、科学计算、多模态等基础大模型;于2022年4月推出盘古2.0,而后陆续发布了盘古气象大模型、盘古海浪大模型、盘古金融OCR大模型、盘古矿山大模型等行业大模型。今日,随着盘古3.0的推出,其有望进一步推动大模型在行业真正走深向实,我们有望看到大模型落地行业的进程大大加快。
一手抓算力底座,一边加速大模型落地行业。可以看到,在当下“百模大战”的背景下,华为盘古大模型走出了一条相对差异化的道路。很多人都在问国内大模型与ChatGPT的差距有多大,但实际上Chat(聊天)仅仅是大模型的一个很小的能力,当下ChatGPT的访问量也在减少,以OpenAI为代表的公司下一步也需要在千行百业中探索大模型落地的真实刚需。当AI大模型落地进入深水区,或许在行业落地跑在前面的玩家更容易脱颖而出。