智东西(公众号:zhidxcom)
作者 | 三北
编辑 | 漠影
进入2024年,随着大模型加速产业化落地,以及MoE(混合专家模型)等大模型技术发展,Llama 2等百亿级参数的模型大有可为,有望在实战场景中以低成本赶超GPT-4等万亿级参数超大规模的模型。
潞晨科技创始人尤洋告诉智东西:“我们完全可以用一台一体机完成模型的微调和部署。”开源大模型让更多企业无需从头开始训练,可以更注重低成本的微调和部署,因此大模型开发的过程也可以变得更加轻量化。
潞晨科技创立于2021年7月,创始人尤洋是加州伯克利大学博士、新加坡国立大学计算机系的校长青年教授,曾创造了ImageNet、BERT、AlphaFold、ViT训练速度的世界纪录,技术至今被微软、谷歌、英伟达等科技巨头广泛采用。
2023年11月,潞晨科技推出了大模型训推一体机,单机支持千亿参数大模型,能够帮助企业像做PPT一样简单快速地完成大模型开发,模型训练/推理加速2-10倍,且效率和成本数倍优化。这意味着大模型开发与应用的门槛被大大降低。
尤洋透露,推出仅仅一个多月之后,这款名为Colossal-AI大模型一体机的产品已获得了金融、医学、能源、零售等领域的标杆客户,为公司获取数千万元营收。而加持一体机的大模型开发系统Colossal-AI,目前已获得GitHub星数超3.5万颗,细分赛道排名世界第一。
2024年有望成为大模型的落地元年。行业将面临什么样的新趋势?开源大模型如何跑赢GPT-4等超大模型?“单机炼模”在实战中表现如何?通过对话尤洋,智东西对此进行了深入探讨。
▲潞晨科技创始人、新加坡国立大学计算机系的校长青年教授尤洋
一、大模型进入落地元年,“单机炼模”成新趋势
在2023年,大模型规模动辄上万亿参数,用一台服务器去训练,几乎是不敢想的事。
进入2024年,情况正在改变:
市场不再一味地追求模型的超大规模参数。「百模大战」的焦点由2023年的大模型转向大模型产业化落地,大模型需要验证应用效果。在这种背景下,一方面,市面上的万亿级参数的通用大模型继续拼杀,最终可能只剩下几家;另一方面,百亿级参数大模型依靠传统行业数据,结合场景,有望开拓出一片新市场。
同时,很难说Llama 2等百亿级参数规模开源模型不够用了。
尤洋告诉智东西,近期欧洲Mistral AI开源的MoE模型,加上Llama 2这类开源大模型,其实已经能满足大部分用户业务需求。
MoE是一种基于稀疏MoE层的模型架构,处理输入数据时只有少数专家模型被激活或者使用,在训练和推理上表现出显著优势,达到节省计算资源的效果,Mistral AI、MiniMax等知名大模型创企最近都透露了MoE进展;此前7月,外媒SemiAnalysis曾曝GPT-4采用的就是MoE方案,16个千亿级参数的专家模型结合而来。现在,MoE成为创企突围GPT-4的一大重要捷径。
与此同时,全球基于Llama 2系列等模型开发的金融、办公、医疗、教育等各行业的大模型已经开始崭露头角,在一些领域落地效果并不比GPT-4差。
这些迹象,都意味着百到千亿级别的大模型将有较大市场发展空间。
尤洋告诉智东西,我们完全可以用一台一体机去微调和部署,让训练大模型像做PPT一样简单,并实现成本和效果最优化。
很多时候,用户并不需要从头做大模型预训练,而只需要对Llama 2等开源大模型结合业务数据进行微调,微调数据可能只有预训练大模型的1%~1‰,因此训练的时间和成本也会降低数个数量级。当模型训练完后投入应用,需要高效的推理部署优化。随着业务的发展,模型又会有多次小规模迭代的需求。
这些工作,在2024年都将可以被一台服务器胜任。
可以预测,随着大模进入产业化落地元年,“单机炼模”将成为一个新的趋势。
二、直击行业痛点,让大模型开发像做PPT一样简单
并不是所有的服务器都适合“单机炼模”。
部署大模型算力,很多投入企业面临这样的痛点:拿到服务器后还有很多工作要做,可能需要长达30天甚至更久才能把环境、框架、模型搭建起来,训练需要多次试错迭代,最终还需要优化推理部署进业务。模型开发的技术门槛和团队成本不低不说,开发模型的算力和时间成本负担也很严峻,产品迭代还可能赶不上竞品。
潞晨科技Colossal-AI大模型一体机直击这一行业痛点。
Colossal-AI是潞晨科技自研的一个集成了高性能计算和AI先进技术的系统,目前已成为全球基础软件市场增长最快的软件之一,基础开源部分已在GitHub上获超3.5万颗星。Colossal-AI大模型一体机则是将这一系统及解决方案,与算力硬件相结合的最新产品。
“它真正把训练部署AI大模型变得像做PPT一样简单。”尤洋对智东西说,“比如做PPT,用户不需要关注PowerPoint软件的版本,以后甚至无需下载PowerPoint软件,通过文本对话就能生成幻灯片。未来只有达到这种状态,整个AI生产力才会解放。”
尤洋告诉智东西,Colossal-AI大模型一体机刚刚推出一个多月时间已落地多家客户,取得阶段性成果。客户大致分为两类:一是有数据隐私要求的,比如金融行业客户;二是众多传统行业,如车厂、医药、石油等行业客户。目前Colossal-AI大模型已为公司取得了数千万元的营收,并保持高速增长。
“95%有AI需求的用户都可以用Colossal-AI大模型一体机满足。即便是愿景规模比较大的用户,将其作为早期选择也是非常合适的。”尤洋告诉智东西。
同时,Colossal-AI大模型一体机易扩展。面对其他5%有大规模模型训练需求的用户,潞晨科技推出了Colossal-AI云平台及私有化部署服务,可以在云端或私有算力集群,提供从数台服务器到千卡集群的算力支持和全面高性能解决方案。
▲潞晨科技Colossal-AI大模型一体机简介
用Colossal-AI大模型一体机“炼模”,将更加省钱、省时、省事:
1、省钱:一台机器解决模型开发全流程问题和实现模型应用部署。一体机支持大模型训练和推理两用,提供Llama、Falcon、MoE等丰富的大模型案例,支持用户用更少的算力成本开发大模型。
2、省时:把技术落地成标准化解决方案,结合其多年在系统层面的加速技术,支持模型训练/推理加速2-10倍,提升客户产品的迭代效率。
3、省事:提供充足的易用性,让开发大模型像做PPT一样简单,用户只需要改几行代码,最多花两三个小时就把大模型搭建起来。潞晨科技的理念是为用户屏蔽底层技术难题,让用户只需要关注速度、成本、模型效果等核心事宜。
可以看到,“单机炼模”不仅意味着机器少了,更意味着大模型开发及应用的门槛显著降低。
三、硬件不够用,大模型行业向软件要效率
虽然大模型开发和应用的门槛正在降低,但面临的算力挑战依然严峻,提高算力效率仍是2024年大模型行业的重中之重。
“高端芯片不足,更能体现出软件的价值。”尤洋告诉智东西。
比如未来H100等高性能GPU在国内可能难以获得,可获得的GPU硬件效率可能缩水数倍。在这一情况下,我们可以把多个性能相对较低的GPU联合起来,去模拟出一个高性能GPU的效果,这就是Colossal-AI最擅长的部分。同时,对于替代硬件,Colossal-AI也早已与多家厂商达成合作,实现低成本兼容适配和性能优化。
向软件要算力效率,尤洋及其团队已深耕多年。
2018年,尤洋提出的LARS优化器将AlexNet模型的训练时间缩短到24分钟,成果获国际并行处理大会(ICPP)最佳论文奖;2019年,他又提出了LAMB优化器,将BERT的预训练时间从三天三夜缩短至76分钟,比Adam优化器快72倍,创造机器学习领域的新纪录。
基于这样的积累,潞晨科技推出的Colossal-AI在大模型浪潮中脱颖而出,成为享誉全球的AI大模型基础设施。
用户在进行分布式大模型训练和部署时面临极高成本迁移、内存效率优化、扩展性等多个方面难题,Colossal-AI在大模型一体机的构建时就已为用户解决。
具体来说,Colossal-AI在异构内存管理系统、N维并行系统和低延时推理系统三部分打造了护城河:
1、异构内存管理系统:基于Colossal-AI的异构调度系统,用户只需要写一行代码就能对GPU内存、CPU内存、硬盘实现高效动态管理,可将硬件的模型容量提升百倍。
2、高效N维并行系统:基于Colossal-Al的N维并行技术,潞晨科技独创序列并行,打造了更高维度的张量并行在内的多种并行策略,易用性极佳,仅需极少量修改即可快速部署各种复杂并行策略,最大化发挥硬件性能。
3、低延时推理系统:潞晨科技采用了包括内存管理、张量并行技术,以及剪枝蒸馏等一系列优化技术,从整体的部署方式和模型本身的优化两方面下手,最大化加速模型推理。
罗马非一日建成。正是由于在大模型系统优化有多年积累,潞晨科技才能够在这波大模型浪潮中拔得头筹。近期,潞晨科技刚刚完成了近亿元的A+轮融资,背后则是对其技术、产品、生态、客户及团队等多方面能力的认可。
▲潞晨科技展台
结语:降低大模型开发门槛,解放AI生产力
进入2024年,「百模大战」中的更多大模型将进入产业实战,一方面,万亿级的头部大模型依然在许多场景中占据统治地位,需要大规模算力集群;另一方面,很难说百亿到千亿级别的大模型不够用,结合行业数据,可能发挥出比大规模模型更好的效果,这也使得“单机炼模”成为可能。
工欲善其事,必先利其器。潞晨科技Colossal-AI大模型一体机的推出,为有大模型需求的厂商提供了大模型训练的加速器、算力的加成包和效果的放大器。其背后的理念更值得提倡,那就是让大模型开发变得像做PPT一样简单,这也是构建AI基础设施,所能直接展现的解放AI生产力的意义所在。