阿里推出”通义”大模型系列,核心模型开源开放,已应用于200多个场景

智东西(公众号:zhidxcom)
作者 | ZeR0
编辑 | 漠影

智东西9月2日报道,在阿里巴巴达摩院今日主办的世界人工智能大会“大规模预训练模型”主题论坛上,达摩院副院长周靖人发布阿里巴巴最新“通义”大模型系列,并宣布相关核心模型向全球开发者开源开放。

面向大模型通用性与易用性仍欠缺的难题,通义打造了业界首个AI(人工智能)统一底座,并构建了大小模型协同的层次化AI体系,将为AI从感知智能迈向知识驱动的认知智能提供先进基础设施。

一、通义大模型:兼顾高性能与低成本,服务逾200个场景

在解决大模型通用性及易用性难题上,阿里巴巴正持续发力。

阿里巴巴达摩院副院长周靖人说,为了让大模型更加“融会贯通”,达摩院在国内率先构建了AI统一底座,在业界首次实现模态表示、任务表示、模型结构的统一

通义统一底座中M6-OFA模型,作为单一模型,在不引入新增结构的情况下,可同时处理图像描述、视觉定位、文生图、视觉蕴含、文档摘要等10余项单模态和跨模态任务,且效果达到国际领先水平。

这一突破最大程度打通了AI的感官,受到学界和工业界广泛关注。近期M6-OFA完成升级后,可处理超过30种跨模态任务。

以统一底座为基础,达摩院构建了层次化的模型体系,其中通用模型层覆盖自然语言处理、多模态、计算机视觉,专业模型层深入电商、医疗、法律、金融、娱乐等行业。

阿里推出”通义”大模型系列,核心模型开源开放,已应用于200多个场景

通用与专业领域大小模型协同,让通义大模型系列可兼顾性能最优化与低成本落地。

为加快大模型规模化应用,达摩院还研发了超大模型落地关键技术S4框架,百亿参数大模型在压缩率达99%的情况下多任务精度可接近无损。

通过部署超大模型及轻量化版本,阿里巴巴通义大模型系列已在超过200个场景中提供服务,实现了2%~10%的应用效果提升。典型使用场景包括电商跨模态搜索、AI辅助设计、开放域人机对话、法律文书学习、医疗文本理解等。

阿里推出”通义”大模型系列,核心模型开源开放,已应用于200多个场景

同时,通义大模型系列中语言大模型AliceMind-PLUG、多模态理解与生成统一模型AliceMind-mPLUG、多模态统一底座模型M6-OFA、超大模型落地关键技术S4框架等核心模型及能力,已面向全球开发者开源,最新文生图大模型近期将开放体验。

开源链接:https://github.com/alibaba/AliceMind/; https://github.com/OFA-Sys/OFA

二、大模型显著降低AI开发门槛,训练过程仍面临多重挑战

近年来,大模型表现出前所未有的理解与创造能力,打破了传统AI只能处理单一任务的限制,让人类离通用人工智能的目标近了一步。

在论坛期间,清华大学计算机系教授唐杰在演讲中分享了大模型的优势和挑战。他提到大模型也有“摩尔定律”:单模型参数量每年增长10倍。

唐杰谈道,深度学习阶段的AI研发存在三个主要痛点:1、模型通用性差;2、“手工作坊式”模型训练;3、模型训练对数据要求高。

大模型则可以显著解决相关问题。由于通用性强,大模型能做到“举一反三”,基于迁移学习能力,应用到多个场景任务。它可以通过API方式对外提供能力,中小企业只需简单配置,就能调用大模型API,获得模型能力。开发者或工程师利用少数数据进行微调,即可开发出适配应用需求的AI模型。

这使得中小企业无需招聘很多AI算法专业人员,就能完成高质量的AI模型开发,可以显著降低研发门槛,降低成本。

但超大参数规模预训练模型的训练和落地仍然面临很多挑战,包括在实现全模态和全任务的通用性上存在许多技术难点,以及受限于算力资源,以至于大模型训练是少数企业及科研机构才能承担的研发任务。

唐杰谈到训练千亿稠密模型的一些挑战:

1、训练成本高昂:训练1750亿参数的GPT-3,用到了上万块英伟达V100 GPU,机时费用高达460万美元,总成本据悉高达1200万美元。

2、人力投入巨大:谷歌PaLM 530B团队,前期准备29人,训练过程11人,整个作者列表68人。

3、训练过程不稳定:易出现训练不收敛现象,且调试困难。

在解决这一系列挑战后,清华团队最终成功打造并运行拥有1300亿参数的GLM模型,它既具有高精度的特征,同时支持在一台A100或V100服务器上进行单机推理。超过30个任务结果均可通过开源代码和模型参数复现。

阿里推出”通义”大模型系列,核心模型开源开放,已应用于200多个场景

结语:让AI单一感官五官全开

近年来,阿里巴巴达摩院在大模型研究方向上取得不少进展。以去年为例,达摩院团队先后发布多个版本的多模态及语言大模型,在超大模型、低碳训练技术、平台化服务、落地应用等方面实现突破。

尤其值得一提的是,达摩院用512卡V100 GPU实现10万亿参数大模型M6,同等参数规模能耗仅为此前业界标杆的1%,极大降低了大模型训练门槛。

周靖人期望,通过融合AI在语言、语音、视觉等不同模态和领域的知识体系,多模态大模型能成为下一代人工智能算法的基石,让AI从只能使用“单一感官”到“五官全开”,且能调用储备丰富知识的大脑来理解世界和思考,最终实现接近人类水平的认知智能。