智东西(公众号:zhidxcom)
作者 | 徐豫
编辑 | 心缘
智东西9月27日消息,国内AI大模型创企岩芯数智(RockAI,简称岩芯)昨日发布了自研的新一代非Transformer架构大模型,名为Yan1.3多模态大模型。该模型今年11月正式向开发者开源。
目前,岩芯数智已实现该模型在手机、电脑、无人机、机器人等端侧硬件上的离线部署,距离全面“脱机”使用AI大模型更近了一步。此外,该公司设立了1亿元的Yan基金用于开展Yan生态合作,并透露其已与多家上下游运营商和厂商洽谈端侧人工智能(AI)项目。
Yan1.3多模态大模型在岩芯数智还有另一个叫法,即群体智能单元大模型。受到生物智能的启发,岩芯数智CEO刘凡平想要用类人脑机制的Yan架构,释放机器智能的未知潜能。
会上,岩芯数智CEO刘凡平分享了他放弃大家一直看好的Transformer架构,坚持非Transformer架构的缘由和心路历程。
“国内AI模型开发者都在追随海外的步伐,这像一场没有终点的技术接力赛。”在刘凡平眼里,这种跟随、模仿没有意义。于是,他决定自研非Transformer架构大模型。
不过,今年1月推出的Yan1.0架构大模型,刘凡平直言受到了不少质疑。此后,耗时8个月,经历了Yan1.1、Yan1.1 Plus、Yan1.2的3次迭代,岩芯数智才推出了Yan1.3版本。
刘凡平称,Yan1.3群体智能单元大模型突破了云端大模型和端侧大模型之间的“楚河汉界”,是一个面向机器的群体智能单元大模型,将从另一个维度上孵化“进化中的生命体”。
此外,今天的AI前沿论坛邀请了中科院上海微系统所研究员李孟和浙江大学人工智能系主任杨洋,刘凡平与他们一同探讨AI大模型与脑科学在学术界和工业界的最新进展。
谈及Yan架构群体智能单元大模型的意义,杨洋认为该大模型将普惠很多想用AI技术却用不上的硬件厂商。这等同于“分发入场券”,杨洋说道,算力资源匮乏的个体也可以入局AI市场,激活整个AGI生态。
刘凡平补充道,Yan架构群体智能单元大模型除了能够降低个体的“入行门槛”,还能推动个体智能化进阶到群体智能化,将现有的大量端侧工具,做成一个可以本地直接使用的AI生命体,从而借助群体的力量突破机器智能的上限。
一、少内存、小算力、不开模、低成本获得端侧AI能力
作为岩芯数智的创始人之一,邹佳思分享了Yan1.3多模态大模型在端侧硬件的落地情况。
通常来说,AI大模型在端侧的应用需要考虑到设备内存占用、续航、硬件开模成本等难点。Yan1.3多模态大模型占用的内存基本控制在1GB左右,远小于市面上的主流产品。
同时,通过非Transformer架构和局部算力激活机制,低算力设备也可以适配该AI大模型,可以复用现有的存量设备。
1、飞行模式下可用,参数量仅3B,中低端手机也能丝滑运行
在飞行模式下,用户点开手机界面的RockAI(岩芯数智)智能助手App,用自然语言说出照片中的一些画面要素,比如“一张在海边看日落的照片”,RockAI智能助手就可以离线检索出一系列相匹配的照片。
同时,RockAI智能助手还可以一键生成小红书风格的文案,耗时约7到8秒。
此外,它还能参考画面要素写出不同主题的文案。联网情况下,上述文案和照片能够直接跳转分享至微信朋友圈。
据邹佳思透露,RockAI智能助手App使用的是参数量仅3B的Yan1.3多模态大模型,不仅AI图片生成文字所花费的时间,比大部分手机上的AI语音助手快至少30%,而且大部分中低端手机的CPU都能带得动该模型。
2、迅兔AI PC拿下“五环外的”偏远地区市场份额
断网情况下,部署了Yan1.3多模态大模型的迅兔AI PC,可以听懂自然语言的语音指令,并支持音频转录、会议总结、以文找图、以图找图等功能。
例如,对它说出“帮我把所有橘猫的照片都删掉”,该AI PC就可以在离线状态下找出相应的照片。
据岩芯数智方面透露,从目前已有的测试结果来看,该大模型单次音频转写时长和文本输出长度,可以“无上限”。
邹佳思称,在一些预算不多的偏远地区或海外国家,Yan1.3多模态大模型已然是PC界的一块“香饽饽”。
不论是高端、中端,还是低端的PC主机上,该端侧AI模型都可以流畅运行,“五环外的设备也可以用”,而且单台内嵌Yan1.3多模态大模型的AI PC价格,不到一台微软AI PC的1/5。
3、胖虎机器人赏画作诗
小苏和胖虎是岩芯数智两款端侧具备多模态认知能力的机器人,岩芯数智主要负责其“大脑”和“小脑”,本体则由岩芯数智的合作伙伴提供。
他们可以在离线状态下,控制肢体完成“七步成诗”、“咏春拳法”等复杂任务,还能理解并执行模糊指令,比如“让一让道”。
胖虎机器人可以在离线状态下“赏画”和“写诗”,还能理解周边的环境。例如,除了挂画内容,它还描述到画框外是“白色的墙壁和地板”。
胖虎机器人接收到四步作诗的指令后,会迈一次左右腿,说一句诗词,并将这个过程重复4次。
不过,在查询一些天气情况等实时变化的信息时,胖虎机器人需要联网才能给出准确情报,不然会“睁眼说瞎话”。
针对本地部署Yan架构大模型的机器人,邹佳思希望将来这些机器人能够全模态实时人机交互。
4、没有网络,飞龙无人机也能“目光锁定”河面垃圾、违规停车
飞龙无人机是国内首个工业落地的多模态大模型无人机,具有无损耗的百毫秒实时检测能力。
该无人机通过外挂算力来部署大模型。
基于Yan1.3多模态大模型,飞龙无人机可以高效适配电力巡检、安全监控、环境监测等应用场景。
有运营商向岩芯数智提供了低空5G模组。因此,在飞龙无人机的实景巡检演示中,我们可以看到无人机通过摄像头看见了“限低10米”的标注后,会自动将巡航高度从5.08米拉升到14.58米。
路边垃圾桶有垃圾溢出、河面漂浮着垃圾、不规范停车的行为……这些飞龙无人机都可以自动扫视、识别并记录。
该无人机还可以根据指令AI拍图,自动捕捉最佳角度,并一键挑选你的“人生照片”。
二、整体性能跑赢Llama 3,Yan1.3可实现CPU秒级人机交互
岩芯数智CEO刘凡平用蚂蚁群、狼群、大雁群的生存法则,来类比Yan1.3群体智能单元大模型去中心化的工作原理。
论如何激发机器智能的群体智能,岩芯数智方面认为需要同时满足以下3点:
1、搭载了具备自主学习能力的若干智能单元;
2、这些分散的智能单元,可以通过环境感知、自我组织和互动协作,共同解决复杂问题;
3、并且要在不断变化的环境中,实现整体智能提升。
Yan架构大模型采用了岩芯数智自研的非Transformer架构。刘凡平称,与市面上采用Transformer架构和非Transformer架构的主流模型相比,Yan架构大模型的性能、效率在同等参数量下都更高。
目前来看,在小参数量级别,Yan1.3多模态大模型的整体性能超过Llama 3,各方面能力基本优于Pythia和Mamba。
在刘凡平看来,Yan1.3群体智能单元大模型有3个亮点。
首先,它是全球人机交互领域第一个端到端的多模态大模型。其模拟了人脑处理信息的方式,主要通过文本、音频、视频输入信息,然后通过文本和音频输出。
至于为什么不做AI文本生成视频,刘凡平在会后接受采访时称,岩芯数智更倾向于训练Yan架构多模态大模型具备类人的视频剪辑、制作能力,而不是直接生成视频。这种构建大模型的思路,为AI未来自主修改、编辑视频留有可行性。
其次,它是全球首个跨越广泛设备的多模态大模型。该模型的应用范围覆盖电视、手机、VR、车载、APIC、智慧家居、机顶盒、树莓派、具身机器人、教育机器人、无人机等。
最后,该模型在实时人机交互上可以达到CPU秒级、GPU百毫秒级的速度。“没有谁比我们更快了,”刘凡平说道。
三、训练数据不能过于“纯净”,AI大模型应学会自主淘汰冗杂信息
为什么说传统Transformer架构大模型并不是AGI的最优解呢?刘凡平解释道,虽然市面上大部分模型都具备理解表达能力,但几乎还没有选择遗忘和自主学习的能力。
其中,“选择遗忘”指向的是AI模型的动态筛选、更新信息的能力,使其和人类大脑一样,在真实的物理世界中保持活跃的状态。
而群体智能单元大模型兼具这3项核心能力,底层逻辑更类人脑,也更接近AGI。
在岩芯数智的规划中,机器智能走向群体智能要经历4个阶段,分别是100%自研具有创新性的大模型基础架构、构建多元化硬件生态、实现自适应智能进化和协同化群体智能。
就Yan1.3群体智能单元大模型而言,岩芯数智来到激发群体智能的第二阶段。
目前,该公司正在将跨平台、低算力、多模态的群体智能单元大模型,通过内嵌或外挂的方式,部署在大疆无人机、树莓派单板计算机等硬件上,并且无损运行。
下一步,Yan架构大模型将重点攻破自主学习与自我优化能力上。
岩芯数智方面称,有计划构建一种能够持续进化的智慧生物,并在其中搭载一个信息互换与协作体系,从而实现机器群体智能的突破性进展。这也是Yan2.0,以及Yan2.0不断迭代后所要达到的目标。
设计一个高效的AI模型是推进群体智能的第一步,岩芯数智选择无量化、无裁剪地原生部署Yan架构大模型。群体智能的核心是个体,可以将其理解为端。这也意味着,AI模型要能够在端侧运行,才能去学习、去进化。
然而,刘凡平解释道,目前主流的Transformer架构模型只能量化、裁剪后,才能在端侧运行。经过“阉割”后的AI模型,也不再具备自主学习的能力了。
为了进一步提升Yan架构大模型的自主学习能力,岩芯数智方面提出了训推同步的策略,即大模型输入信息的时候属于学习过程,输出信息的时候属于训练过程,这两个步骤是实时同步发生的。CEO刘凡平视其为“群体智能单元大模型自主学习实现的最佳方式”。
同时,该公司还将Yan架构大模型放在一个“充满噪声”的物理环境中。
一个“真空无害”的环境并不利于孩童的成长,AI机器也是一样的。CEO刘凡平称,野生的数据环境才是最真实的,信息会散落在各处,比如现场大屏幕上的PPT、音响中播放的音乐、观众的神情姿态……
因此,刘凡平希望训练AI机器去自主捕捉、筛选和利用信息,而非坐等投喂人工精选、提纯的数据。
四、终身学习的能力,是非Transformer架构大模型的核心优势
作为Transformer架构的代表,OpenAI只是暂时站在了时代的聚光灯下,中科院上海微系统所研究员、博士生导师李孟说道。一个新技术从出现,到逐渐被人们接受,再到全面暴开。期间经历争议,也收获掌声,这都是一家创企的必经之路。
岩芯数智刘凡平相信,一定会有一个新的架构出现,来替代Transformer架构,这也遵循了客观规律。
《Attention is All You Need》作者Aidan Gomez今年4月曾抛出类似的观点,这个世界需要比Transformer更好的架构,我们所有人都希望它能被某种新架构所取代,将我们带到一个新的性能高原。现在,我们使用了过多的计算资源,也做了很多无用的计算。
刘凡平也曾尝试开发过Transformer架构的大模型,但他最终发现这种思路无法模拟人脑的运行规则,难以通向AGI的终极目标。
“AI模型最好的榜单不是评测专业能力有多强,而是去评测学习能力有多强。”刘凡平认为,传统Transformer架构大模型的发展模式类似于“造神”,模型参数量、算力越卷越庞大,但却丢掉了自主学习能力。
放在生物圈中,如果说传统Transformer架构是“一鲸落而万物生”,那么Yan架构则是冲不散的小鱼群、遍布海底的珊瑚、随波漂浮的微生物。
用浙江大学人工智能系主任、博士生导师杨洋的话来说,OpenAI致力于让单只蚂蚁变得更聪明,而岩芯数智则是探索一个机制,让蚂蚁群体内的每只蚂蚁互相协作起来。
在AI向生物智能进化的途中,岩芯数智想要编织一张AI智能体(Agent)的大网。尝试多种方法后,岩芯数智提出了在端侧无损推理的两大核心技术,一是以底层神经网络架构MCSD替代Transformer的Attention机制,二是基于仿生神经元驱动的选择算法实现类脑分区激活。
这两种机制能够较大幅度地减少计算复杂度和算力消耗,以低功耗、低成本驱动高性能。目前,Yan架构多模态大模型已经可以在树莓派的单板计算机上无损推理。
结语:群体智能是通向AGI的新路径,脑科学能帮大忙
目前,包括申请中的专利在内,岩芯数智已获得海内外超50项AI相关的技术专利。在岩芯数智董事长陈代千看来,AI技术将逐渐从云端集群走向电源设备,从集中式处理走向分布式智能。
未来,AI的端侧应用无需依赖大量的云服务,而是在设备终端本地执行数据处理,从而有效降低数据的传输时延和泄露风险。
中科院上海微系统所研究员、博士生导师李孟认为,群体智能对于当前阶段的人工智能(AI)发展非常重要。看到大模型性能真正落地各种端侧设备后,他感到很激动。
在岩芯数智CEO刘凡平看来,群体智能单元大模型的研发与脑科学的研究有诸多相似之处,都是AI与人脑的结合研究,而岩芯数智也是国内率先把脑科学与AI大模型两者商业化的公司。
浙江大学人工智能系主任、博士生导师杨洋也认可了脑科学对于AI技术的独特价值。
在过往针对脑电大模型的研发中,杨洋发现AI模型的泛化能力不足是脑电大模型研发的一大瓶颈。目前的脑电大模型难以在不同的个体间通用,他认为,Yan架构大模型或许能解决这一点,可以利用其大幅提升脑电大模型的泛化能力。
李孟补充道,这类似于生物学中神经元的概念,要有一个总的神经中枢,才能有效地控制各个人体系统。
岩芯数智董事长陈代千相信,最终所有用户都通过各种端侧应用和设备来调用AI模型,而每一个端侧AI都是一个独立的群体智能单元,并且将从整体上改变人类所掌控的物理世界。