文心一言上线倒计时:百度十年AI理想和研发长跑,进入爆发前夜

智东西(公众号:zhidxcom)
作者 | 三北
编辑 | 漠影

随着AIGC(生成式AI)引爆新一轮全球科技竞赛,百度对话机器人“文心一言”上线也进入倒计时,3月“交卷”筹备如何备受各界关注。

适逢百度财报今日发布,百度2022年营收约1237亿元,净利润约207亿元,研发投入达214亿元,约等于把一年赚的钱全用来做研发了;同时,AI产业化成果初显,百度智能云已连续四年居AI公有云市场第一,关于百度文心一言的多个动向也随之曝出:

已有超400家企业宣布加入文心一言生态圈,同时百度多项主流业务将接入文心一言,包括百度搜索,以及基于百度智能云的智能语音助手小度、智能驾驶阿波罗(Apollo)等。

文心一言上线倒计时:百度十年AI理想和研发长跑,进入爆发前夜

▲百度2022年的研发投入及AI新进展

作为中国AI市场长期增长的代表,百度正站在浪潮之巅。

百度创始人兼董事长李彦宏在财报发布后的内部信中说:“AI技术已经发展到一个临界点,各行各业都不可避免地被改变,中国AI市场即将迎来爆发性的需求增长。”实际上,这一新机会引起了全球产业的沸腾,基于大模型的AIGC成为一片掘金热土。

文心一言上线倒计时:百度十年AI理想和研发长跑,进入爆发前夜

▲百度创始人兼董事长李彦宏

美国硅谷的微软、谷歌等科技巨头为此打得不可开交;国内,百度、科大讯飞、复旦大学等大厂和知名学府纷纷出手,原美团“二号人物”王慧文、出门问问创始人李志飞等科技大佬也一头扎入AIGC创业大潮……

而作为国内在“AI+搜索”首屈一指的互联网大厂,百度十年AI理想和穷尽实验,或许正进入爆发前夜。

一、每月投18亿做研发,迎战全球AIGC竞赛

AI研发向来是一项费钱的事业。尽管2022年业务深受疫情影响,百度依然保持了“月投18亿做研发”的记录。

从经营基本面来看,根据财报,百度本季度营收约331亿元,高于市场预期的320亿元;归属百度的净利润约54亿元,同比增长32%。

文心一言上线倒计时:百度十年AI理想和研发长跑,进入爆发前夜
▲百度近年营收及增长情况

在研发投入方面,百度保持了多年以来的高研发投入,2022年约达到214亿元,相当于每月投18亿做研发,占百度核心收入22.4%,在全国科技公司里位于前列。

文心一言上线倒计时:百度十年AI理想和研发长跑,进入爆发前夜

▲百度近年研发投入情况

持续的研发投入,正在转化为产业化成果。比如承载AI产业化的百度智能云部门,2022年强化了“云智一体”战略,已连续四年居于中国AI公有云市场第一。

而在前沿技术研发方面,百度TPG部门最新的文心(ERNIE)大模型成果,正成为百度应对全球AIGC产业化浪潮的锚点支撑。

在刚刚过去的2022年Q4,百度在11月的深度学习开发者峰会上全新发布11个大模型,包括5个基础大模型、1个任务大模型、5个行业大模型。同时,百度新发布和升级基于文心大模型的两大产品——AI 作画产品“文心一格”和产业级搜索系统“文心百中”。

文心是百度自主研发的产业级知识增强大模型,与当下流行的大模型GPT-3.5相似。截至目前,文心已累计发布11个行业大模型,涵盖电力、燃气、金融、航天、传媒、城市、影视、制造、社科等领域。

文心一言上线倒计时:百度十年AI理想和研发长跑,进入爆发前夜

▲百度文心产业级知识增强大模型框架图

随着2023年新季度的开启,百度将于3月推出又一个生成式AI产品“文心一言”,以此续写迎战全球AIGC竞赛的篇章。

二、十年AI理想与研发长跑,在中文搜索土壤上开花

要问当下什么是AIGC的最佳商业化应用?

搜索引擎一定榜上有名。

接入了ChatGPT的微软新版Bing秒变私人智能助理,谷歌对标产品Bard也进入了全公司万人内测阶段……凭借“百度一下”被全国人认识的百度也出手了——在今年1月Create AI开发者大会前夕,百度宣布将搜索升级为“生成式搜索”,这意味着百度搜索将提供更好的答案、交互聊天和生成内容。

跻身全球AIGC产业化竞赛舞台,百度正试图引领中文搜索体验的代际变革。

根据财报可知,作为基本盘,搜索业务为百度文心一言的诞生提供了厚实土壤。2022年Q4,百度搜索规模同比增长17%,领跑优势持续扩大。12月,百度App月活跃用户达到6.48亿,同比增长4%。此外,随着国内市场消费需求释放,百度在线广告营销业务预计将迎来复苏。这些增长都与百度基本盘搜索业务紧密相关,从而为文心一言的落地提供了底盘基座。

文心一言上线倒计时:百度十年AI理想和研发长跑,进入爆发前夜
▲百度移动生态流量池保持增长

知名分析机构麦格理预计,百度2023年广告及云服务收入增长将会有所回升,受惠于有效的成本控制措施,整体利润率提高,而可见的上行惊喜将会是公司有机会在中国推出类似ChatGPT的人工智能(AI)聊天机器人。

可以预测,随着接入文心一言,百度搜索将扩大服务场景和市场规模。AIGC有望助百度抢占内容生态高地,比如增加百度平台上的高质量短视频供应,助百家号发布者提高转换效率等。

实际上,除了搜索,百度文心一言将通过智能云提供服务,应用于智能驾驶阿波罗(Apollo)、智能语音助手小度等多块业务,使得用户体验实现跨代进化。

当然,AIGC相关技术研发难度大,即便是微软新版Bing在近期的测试中也是“翻车”不断,百度文心一言做的怎么样依然是一个未知答案。攻克技术缺陷需要时间,这对百度来说挑战和压力不小。

不过,百度文心一言的诞生并非一日之功,超10年在NLP(自然语言处理)领域的积累或许能为其提供坚实支持。

早在2010年,百度就创立了自然语言处理部,在语音、图片等技术上布局;2019年3月,百度提出知识增强的语义理解框架文心(ERNIE),在深度学习的基础上融入知识和持续学习,当时一举登顶全球权威数据集GLUE榜单。

2021年9月,百度发布了全球首个百亿参数的对话大模型PLATO-XL,再次刷新了开放域对话效果;2022年12月,文心大模型迭代出ERNIE 1.0、ERNIE 2.0、ERNIE-Tiny多个版本,开始加速落地到各个行业。

十年AI理想与研发长跑,在百度中文搜索土壤上开花,并开始走向千行百业实体经济的结出果实。

三、热战微软、谷歌,百度文心一言打造四大护城河

热战微软、谷歌,国产大模型将与硅谷科技巨头进行在不同的舞台隔空PK。

百度创始人兼董事长李彦宏在近期公开发言中说:“怎么把这么酷的技术,变成人人需要的好产品,赋能千行百业,让他们的生产效率大幅度地提升?这一步才是最难的,也是最伟大、最能够产生影响力的。”

根据官方数据可知,目前已有包括互联网、媒体、金融、保险、汽车、企业软件等行业的超400家头部企业宣布加入百度文心一言生态。而文心一言能否为这些行业伙伴带来惊艳的效果?成为当下阶段百度团队的主要攻坚战。

面向这一攻坚战,百度从至少算法、算力、数据、应用四大方面建立了技术护城河。

1、四年大模型飞速迭代,飞桨底座汇聚535万开发者

无论是大模型算法还是AI开发框架,百度都走在国内科技大厂的前列。

文心一言背后,文心大模型迭代四年至今,已从单一的自然语言理解延伸至多模态,实现视觉、文档、文图、语音“全能”,具备较强泛化能力和性能。以最新发布的ERNIE 3.0 Zeus为例,已拥有千亿级参数,据称公开数据集上小样本学习、理解和生成任务效果皆好于业界其他模型。

支撑文心模型训练的框架是百度飞桨(PaddlePaddle),中国首个自主研发的产业级深度学习开源开放平台。一方面飞桨技术不断迭代,2022年11月刚在MLPerf Training v2.1测试中夺魁;另一方面生态不断壮大,截至2022年11月底,飞桨平台上已凝聚535万开发者、创建67万个AI模型,服务20万家企事业单位,位列中国深度学习平台市场综合份额第一。

文心一言上线倒计时:百度十年AI理想和研发长跑,进入爆发前夜

▲飞桨平台全景图

2、三大云中心稳定供算力,几万片自研芯澎湃加速

大模型战场正变得越来越热闹,算力成本随着飙升。比如GPT-3大模型的单次训练成本上百万美元、总训练成本上千万美元。

在算力方面,百度在阳泉、徐水、定兴三地建立了自用云计算中心,庞大的超算集群为文心大模型的训练奠定了基础设施。百度智能云在成为百度第二增长曲线的同时,也能为文心大模型应用提供高并发、高弹性、高精度等不同计算需求。

同时,百度自研AI芯片“昆仑”已在多场景实际部署几万片,在公司搜索业务中也已形成较强工程化实践,为文心大模型底层算力铺上了加速路。

文心一言上线倒计时:百度十年AI理想和研发长跑,进入爆发前夜

▲百度“芯片-框架-大模型-行业应用”的智能化闭环路径

3、自有业务海量真实文本,具备先天数据优势

众所周知,拥有千亿参数的大模型是用海量数据“喂出来的”。

在数据层面,百度以移动APP、搜索等业务为依托,积累了海量真实文本和用户需求数据。这些大规模结构化、非结构化数据有望支撑文心一言充分预训练,形成自身优势。此外,在安全领域多年的深耕也将为文心一言保驾护航。

4、多款应用提供创新土壤,用户开放带起迭代飞轮

正如前文提到的,文心一言能够落地到百度搜索、小度、阿波罗等多块自有业务,这些产品不少已在市场占据领导地位。随着文心一言的嵌入,这些产品有望实现代际变革;产品的迭代也将反推文心一言继续进化。

另外,随着文心一言的公众开放,真实的用户调用和模型迭代之间的良性循环建立起来,文心一言大模型的智力有望不断升级。

此外值得一提的是,文心一言在迎战国外AIGC产品的同时,更需要适应中国市场的实体经济数字化转型需求。根据百度方发言,文心大模型是本土化的AI模型,具备对中文、中国文化的更深理解,这意味着文心一言可能会更适合中文和中国市场。

结语:巨头AIGC竞赛号角拉响,中国AI产业迎来“小阳春”

全球AIGC的巨头战已经打响,在AI和搜索领域深耕多年的百度站在了新的历史舞台上。2019年推出文心大模型,其将于3月推出的文心一言可以说是中国科技力量参战全球AIGC竞赛的一大代表。

适逢文心一言上线进入倒计时,百度发布了2022年的财报及Q4的业务进展情况,成为提前了解其“答卷”的参考。百度搜索、智能云、阿波罗、小度等业务快速发展,成为文心一言大模型在实际落地中不断迭代的试验田。

不久之前,人们似乎还在AI产业的低谷仰望光明,不知道通用人工智能的曙光何时出现。现在,随着全球AIGC巨头战号角吹响,AI市场又热了起来,中国方兴未艾的AI产业有望迎来一个“小阳春”。