智东西(公众号:zhidxcom)
作者 | 三北
编辑 | 漠影
今日,“国产版GPT-4o”,日日新5o,亮相WAIC大会。
5月中旬,OpenAI推出新旗舰模型GPT-4o,凭借自然流畅的实时音视频交互震惊世界。
仅仅一个多月之后,在我国一年一度的最大人工智能盛会WAIC 2024上,商汤科技正式推出日日新5.5,以及可进行流式多模态交互的5o版本,不仅多项测评超GPT-4o,还实现实时跨文本、音频、图像与视频推理。
▲商汤日日新5.5多项核心指标测评超GPT-4o
商汤科技现场演示了新模型日日新5o的实时音视频交互,引起了WAIC观众的一片沸腾。
比如,当演示者用手机对着桌上小狗玩偶,日日新5o可以在要求下讲出小狗的表情,并识别出帽子上的文字和背景,多轮对话十分丝滑流畅。
与此同时,商汤还推出可控人物类AI视频生成产品Vimi,可稳定生成长达1分钟的单镜头人物类视频,具有高动态、高保真特点,预计月内公测。
通过Vimi,商汤董事长兼CEO徐立在现场致敬了人工智能领域的多位大咖,包括让已故的AI科学家、商汤科技创始人汤晓鸥的照片“复活”,久违的音容笑貌浮现。
一、多项测评超GPT-4o,日日新5.5亮相WAIC,连甩三大炸弹
国内首个对标GPT-4o,日日新5.5实现了核心指标的全面升级。
在MMB v1.1、MMStar、Math Vista、AI2D、OCRBench等多项全球权威测评中,日日新5.5的得分均超过GPT-4o。
升级版的日日新5.5展现出“五边形战士”的实力,语言和知识、推理数理、编程、考试五大能力,相比日日新5.0版能力圈大大拓宽。
经过测评可知,日日新5.5在英文能力、指令跟随、长文本理解、Function能力等方面大大提升,整体性能提升30%。
据悉,日日新5.5大模型采用混合端边云协同专家架构,基于超过10TB tokens高质量数据训练,能最大限度发挥云边端协同的优势,在多项核心能力飙升的同时,降低推理成本。
值得一提的是,日日新5.5还应该是国内首个流式多模态交互模型。
就像GPT-4o一样,日日新5o可以与用户实现原生多态实时交互,覆盖声音、文本、图像、视频等多种形式。比如前文提到,用户可以要求日日新5.5帮他读取眼前画面中的核心内容。
商汤相关负责人告诉智东西:“技术可用的一个最大的挑战是:要足够快,而且不只是在某些示例中快。我们过去两个月一直在持续攻关,从算法、设计和工程多方配合,从而训练出性能更强的模型。”
当下大模型正涌向端侧,掀起落地潮。商汤日日新5.5更新的第三大亮点,也正是聚焦于端侧大模型。
商汤最新推出了日日新5.5 Lite端侧大模型,据称相比此前版本首包时延降低40%,推理效率提升15%,模型精度提升10%。同时,商汤端侧模型矩阵也首次亮相,包括写作助手、总结助手、百科助手等特化模型,可针对用户的个性化需求,提供效果更优的定制化专项模型。
为了让更多用户能用上大模型,商汤商量端侧大模型设备可同时支持端侧部署及云侧调用,每台设备9.9元包年。信息一出,引起台下一片欢呼。
商汤还推出0元Go计划,支持OpenAI客户零成本迁移,并向新客户赠送5000万Tokens包,可谓“一手抓技术,一手抓市场”。
二、现场演示实时音视频交互,人物视频生成大模型也来了
日日新5.5的核心指标如此亮眼,实际使用效果如何?
商汤科技演示了基于日日新5.5的日日新5o的实时音视频交互能力,将现场氛围掀到高潮。
演示者首先拿着手机将摄像头对准观众席,问手机里的日日新5o助手,现在他在参加什么活动。日日新5o通过识别现成的飘带,识别出这是WAIC人工智能大会,立马给出了正确答案,还向现场观众打了招呼。
紧接着是阅读能力,演示人将手机镜头对向一本书,让日日新5o介绍眼前的书本,日日新5o立马回复这个是《反脆弱》,并介绍了作者背景。当演示者翻开书页,日日新5o也能立马帮演示者解读书本的内容,展现出高清的流媒体技术。
最后,演示者进一步升级难度,他画了一幅简笔画问日日新5o这是什么,日日新5o立马称这是一只可爱的兔子。当演示者为兔子加上了表情和动作,日日新5o都立马识别并表述了出来,展现出极强的多模态理解能力。
但商汤科技“杀招”不止于此,其还在AI视频生成模型领域大展身手。
Sora热潮之后AI视频生成工具泛滥,很多工具都在人物生成上“翻车”不断。本次,商汤推出面向C端的可控人物视频生成AIGC产品——Vimi人物视频生成模型。
与市面上的视频生成模型不同的是,基于日日新5.5,Vimi人物生成模型可通过动作视频、动画、声音、文字等多种元素来驱动人物图片,生成和目标动作一致的分钟级视频内容。
Vimi支持生成光影和动态都自然和谐的视频,用户可自行替换各种IP生成所需视频内容。
正如前文提到,徐立在WAIC发布现场致敬了AI领域的多位大咖,克劳德·艾尔伍德·香农、约翰·冯·诺依曼、艾伦·麦席森·图灵以及汤晓鸥教授的照片突然“活了”,这也是出自Vimi的处理加工。
实际上,基于日日新5.5,商汤科技整个大模型应用“全家桶”都实现了重大升级。
1、小浣熊家族更新:代码助手速度提升5倍,大模型原生数据产品上线
商汤代码小浣熊·个人升级版推出,提供更强悍模型性能、更丰富插件功能和更完善数据看板,响应速度提升5倍,代码精度提升10%。目前商汤科技已连接超200家企业使用代码小浣熊。
同时,大模型原生数据分析产品——办公小浣熊网页个人升级版&小程序版同步上线,支持更多数据接入、个性化用户体验、多端联动。商汤科技现场演示了办公小浣熊,它快速统计了现场大家饮用水情况,并给出了可视化的统计图。
2、商量拟人大模型Pro版本发布,拟人对话测评超GPT-4
商量拟人大模型SenseChat-Character-Pro版大模型发布,它支持个性化角色创建与定制,并具备知识库构建、长对话记忆、多人群聊等功能,可以广泛应用于拟人对话场景。
在面向中文角色扮演对话代理(RPCAs)领域的CharacterEval测评中,商量-拟人大模型高级版(SenseChat-Character-Pro)在角色对话能力、人设一致能力、及角色扮演吸引力等核心维度方面全面领先,优于GPT-4以及其他企业拟人大模型。
随着大量新产品的发布,商汤WAIC展区吸引了很多人来体验。
▲现场观众在商汤科技站台驻足观看
可以看到,多模态大模型时代已经加速到来,而国产力量已经冲到前列。
尽管当下我国AI的人才储备、资本投入力度与美国有差距,算法领域仍存在差距。但我国的一大优势在于应用侧发展迅速,包括手机、教育、医疗等众多场景需求的迸发,以及大量的数据资源,都会对商汤日日新5.5这样的多模态大模型的发展带来推动作用。
三、OpenAI客户免费迁移!端侧大模型9.9元包年,壮大企业应用生态
大模型产业的发展,离不开生态的建设。
本次,商汤科技推出了0元Go计划,以更激进政策推动开发者和行业客户加入创新大潮。
商汤宣布将提供从OpenAI到“日日新SenseNova”的迁移系列培训,同时新注册企业用户将获得涉及调用、迁徙、训练等多项免费服务大礼包。
面向“日日新SenseNova”新注册企业用户,商汤还宣布将赠送5000万Tokens包,派出专属搬家顾问。这意味用户不仅能0成本迁移,还能获得更多的调用优惠和升级服务。
商汤日日新大模型的生态“一盘棋”正在日益完整。
端侧大模型作为商汤大模型生态一块重要拼图,据称已经有150+客户启动商业对接。
正如前文提到,商汤端侧模型的矩阵已经不断壮大,目前已经适配手机、平板电脑、VR一体机、车载电脑、智慧台灯等众多终端。也就是说,基于上头端侧大模型,所有智能硬件玩家都可以把他们的业务重做一遍。
用大模型改造智能硬件,门槛也变得更低。
商汤科技宣布端侧大模型价格低至——每台每年9.9元。虽然价格更经济了,但服务支持多种垂直业务方向,包括写作、百科知识等不同领域,同时支持端侧部署及云侧调用,部署简易好上手。
面向企业级市场,商汤宣布其政府、企业用户超过3000家。
本次,商汤科技推出能源多模态一体机、办公(代码)一体机、智慧城市焕新方案-方舟多模态新智平台、金融一体机、医疗一体机等多种方案,助政企客户解决核心数据安全本地部署大模型的需求,降低企业使用大模型的成本,从而进一步壮大企业应用生态。
除此之外,商汤科技还推出了金融场景大模型、农业场景大模型、文旅场景大模型、医疗场景大模型等多个行业大模型。
结语:硬刚GPT-4o,国产多模态大模型迈上新台阶
多项指标超GPT-4o,商汤团队突破了一些核心关键点。商汤相关负责人告诉智东西:“我们的模型跟Sora的方法相比,有10-20%的提升,背后的原因是我们自去年就确立原生多模态的目标,并一直持续迭代。”
当下,国内大模型产业竞赛更“卷”,价格战之下似乎出现同质化趋势。但同质化只是表象。本次,商汤推出的多项核心指标的升级、跨多模态的实时音视频交互等众多更新,都展现出其在大模型技术上迈上新台阶,也代表着国产大模型发展的更广阔空间。