最强国产多模态大模型来了！硬刚GPT-4o，商汤现场演示实时音视频交互

智东西（公众号：zhidxcom）
作者 | 三北
编辑 | 漠影

今日，“国产版GPT-4o”，日日新5o，亮相WAIC大会。

5月中旬，OpenAI推出新旗舰模型GPT-4o，凭借自然流畅的实时音视频交互震惊世界。

仅仅一个多月之后，在我国一年一度的最大人工智能盛会WAIC 2024上，商汤科技正式推出日日新5.5，以及可进行流式多模态交互的5o版本，不仅多项测评超GPT-4o，还实现实时跨文本、音频、图像与视频推理。

最强国产多模态大模型来了！硬刚GPT-4o，商汤现场演示实时音视频交互 ▲商汤日日新5.5多项核心指标测评超GPT-4o

商汤科技现场演示了新模型日日新5o的实时音视频交互，引起了WAIC观众的一片沸腾。

比如，当演示者用手机对着桌上小狗玩偶，日日新5o可以在要求下讲出小狗的表情，并识别出帽子上的文字和背景，多轮对话十分丝滑流畅。

与此同时，商汤还推出可控人物类AI视频生成产品Vimi，可稳定生成长达1分钟的单镜头人物类视频，具有高动态、高保真特点，预计月内公测。

通过Vimi，商汤董事长兼CEO徐立在现场致敬了人工智能领域的多位大咖，包括让已故的AI科学家、商汤科技创始人汤晓鸥的照片“复活”，久违的音容笑貌浮现。

最强国产多模态大模型来了！硬刚GPT-4o，商汤现场演示实时音视频交互

一、多项测评超GPT-4o，日日新5.5亮相WAIC，连甩三大炸弹

国内首个对标GPT-4o，日日新5.5实现了核心指标的全面升级。

在MMB v1.1、MMStar、Math Vista、AI2D、OCRBench等多项全球权威测评中，日日新5.5的得分均超过GPT-4o。

升级版的日日新5.5展现出“五边形战士”的实力，语言和知识、推理数理、编程、考试五大能力，相比日日新5.0版能力圈大大拓宽。

经过测评可知，日日新5.5在英文能力、指令跟随、长文本理解、Function能力等方面大大提升，整体性能提升30%。

据悉，日日新5.5大模型采用混合端边云协同专家架构，基于超过10TB tokens高质量数据训练，能最大限度发挥云边端协同的优势，在多项核心能力飙升的同时，降低推理成本。

最强国产多模态大模型来了！硬刚GPT-4o，商汤现场演示实时音视频交互

值得一提的是，日日新5.5还应该是国内首个流式多模态交互模型。

就像GPT-4o一样，日日新5o可以与用户实现原生多态实时交互，覆盖声音、文本、图像、视频等多种形式。比如前文提到，用户可以要求日日新5.5帮他读取眼前画面中的核心内容。

商汤相关负责人告诉智东西：“技术可用的一个最大的挑战是：要足够快，而且不只是在某些示例中快。我们过去两个月一直在持续攻关，从算法、设计和工程多方配合，从而训练出性能更强的模型。”

当下大模型正涌向端侧，掀起落地潮。商汤日日新5.5更新的第三大亮点，也正是聚焦于端侧大模型。

商汤最新推出了日日新5.5 Lite端侧大模型，据称相比此前版本首包时延降低40%，推理效率提升15%，模型精度提升10%。同时，商汤端侧模型矩阵也首次亮相，包括写作助手、总结助手、百科助手等特化模型，可针对用户的个性化需求，提供效果更优的定制化专项模型。

最强国产多模态大模型来了！硬刚GPT-4o，商汤现场演示实时音视频交互

为了让更多用户能用上大模型，商汤商量端侧大模型设备可同时支持端侧部署及云侧调用，每台设备9.9元包年。信息一出，引起台下一片欢呼。

最强国产多模态大模型来了！硬刚GPT-4o，商汤现场演示实时音视频交互

商汤还推出0元Go计划，支持OpenAI客户零成本迁移，并向新客户赠送5000万Tokens包，可谓“一手抓技术，一手抓市场”。

二、现场演示实时音视频交互，人物视频生成大模型也来了

日日新5.5的核心指标如此亮眼，实际使用效果如何？

商汤科技演示了基于日日新5.5的日日新5o的实时音视频交互能力，将现场氛围掀到高潮。

演示者首先拿着手机将摄像头对准观众席，问手机里的日日新5o助手，现在他在参加什么活动。日日新5o通过识别现成的飘带，识别出这是WAIC人工智能大会，立马给出了正确答案，还向现场观众打了招呼。

紧接着是阅读能力，演示人将手机镜头对向一本书，让日日新5o介绍眼前的书本，日日新5o立马回复这个是《反脆弱》，并介绍了作者背景。当演示者翻开书页，日日新5o也能立马帮演示者解读书本的内容，展现出高清的流媒体技术。

最后，演示者进一步升级难度，他画了一幅简笔画问日日新5o这是什么，日日新5o立马称这是一只可爱的兔子。当演示者为兔子加上了表情和动作，日日新5o都立马识别并表述了出来，展现出极强的多模态理解能力。

但商汤科技“杀招”不止于此，其还在AI视频生成模型领域大展身手。

Sora热潮之后AI视频生成工具泛滥，很多工具都在人物生成上“翻车”不断。本次，商汤推出面向C端的可控人物视频生成AIGC产品——Vimi人物视频生成模型。

与市面上的视频生成模型不同的是，基于日日新5.5，Vimi人物生成模型可通过动作视频、动画、声音、文字等多种元素来驱动人物图片，生成和目标动作一致的分钟级视频内容。

Vimi支持生成光影和动态都自然和谐的视频，用户可自行替换各种IP生成所需视频内容。

最强国产多模态大模型来了！硬刚GPT-4o，商汤现场演示实时音视频交互

正如前文提到，徐立在WAIC发布现场致敬了AI领域的多位大咖，克劳德·艾尔伍德·香农、约翰·冯·诺依曼、艾伦·麦席森·图灵以及汤晓鸥教授的照片突然“活了”，这也是出自Vimi的处理加工。

实际上，基于日日新5.5，商汤科技整个大模型应用“全家桶”都实现了重大升级。

1、小浣熊家族更新：代码助手速度提升5倍，大模型原生数据产品上线

商汤代码小浣熊·个人升级版推出，提供更强悍模型性能、更丰富插件功能和更完善数据看板，响应速度提升5倍，代码精度提升10%。目前商汤科技已连接超200家企业使用代码小浣熊。

最强国产多模态大模型来了！硬刚GPT-4o，商汤现场演示实时音视频交互

同时，大模型原生数据分析产品——办公小浣熊网页个人升级版&小程序版同步上线，支持更多数据接入、个性化用户体验、多端联动。商汤科技现场演示了办公小浣熊，它快速统计了现场大家饮用水情况，并给出了可视化的统计图。

最强国产多模态大模型来了！硬刚GPT-4o，商汤现场演示实时音视频交互

2、商量拟人大模型Pro版本发布，拟人对话测评超GPT-4

商量拟人大模型SenseChat-Character-Pro版大模型发布，它支持个性化角色创建与定制，并具备知识库构建、长对话记忆、多人群聊等功能，可以广泛应用于拟人对话场景。

在面向中文角色扮演对话代理（RPCAs）领域的CharacterEval测评中，商量-拟人大模型高级版（SenseChat-Character-Pro）在角色对话能力、人设一致能力、及角色扮演吸引力等核心维度方面全面领先，优于GPT-4以及其他企业拟人大模型。

随着大量新产品的发布，商汤WAIC展区吸引了很多人来体验。

最强国产多模态大模型来了！硬刚GPT-4o，商汤现场演示实时音视频交互

▲现场观众在商汤科技站台驻足观看

可以看到，多模态大模型时代已经加速到来，而国产力量已经冲到前列。

尽管当下我国AI的人才储备、资本投入力度与美国有差距，算法领域仍存在差距。但我国的一大优势在于应用侧发展迅速，包括手机、教育、医疗等众多场景需求的迸发，以及大量的数据资源，都会对商汤日日新5.5这样的多模态大模型的发展带来推动作用。

三、OpenAI客户免费迁移！端侧大模型9.9元包年，壮大企业应用生态

大模型产业的发展，离不开生态的建设。

本次，商汤科技推出了0元Go计划，以更激进政策推动开发者和行业客户加入创新大潮。

商汤宣布将提供从OpenAI到“日日新SenseNova”的迁移系列培训，同时新注册企业用户将获得涉及调用、迁徙、训练等多项免费服务大礼包。

面向“日日新SenseNova”新注册企业用户，商汤还宣布将赠送5000万Tokens包，派出专属搬家顾问。这意味用户不仅能0成本迁移，还能获得更多的调用优惠和升级服务。

最强国产多模态大模型来了！硬刚GPT-4o，商汤现场演示实时音视频交互

商汤日日新大模型的生态“一盘棋”正在日益完整。

端侧大模型作为商汤大模型生态一块重要拼图，据称已经有150+客户启动商业对接。

正如前文提到，商汤端侧模型的矩阵已经不断壮大，目前已经适配手机、平板电脑、VR一体机、车载电脑、智慧台灯等众多终端。也就是说，基于上头端侧大模型，所有智能硬件玩家都可以把他们的业务重做一遍。

最强国产多模态大模型来了！硬刚GPT-4o，商汤现场演示实时音视频交互

用大模型改造智能硬件，门槛也变得更低。

商汤科技宣布端侧大模型价格低至——每台每年9.9元。虽然价格更经济了，但服务支持多种垂直业务方向，包括写作、百科知识等不同领域，同时支持端侧部署及云侧调用，部署简易好上手。

面向企业级市场，商汤宣布其政府、企业用户超过3000家。

本次，商汤科技推出能源多模态一体机、办公（代码）一体机、智慧城市焕新方案-方舟多模态新智平台、金融一体机、医疗一体机等多种方案，助政企客户解决核心数据安全本地部署大模型的需求，降低企业使用大模型的成本，从而进一步壮大企业应用生态。

除此之外，商汤科技还推出了金融场景大模型、农业场景大模型、文旅场景大模型、医疗场景大模型等多个行业大模型。

结语：硬刚GPT-4o，国产多模态大模型迈上新台阶

多项指标超GPT-4o，商汤团队突破了一些核心关键点。商汤相关负责人告诉智东西：“我们的模型跟Sora的方法相比，有10-20%的提升，背后的原因是我们自去年就确立原生多模态的目标，并一直持续迭代。”

当下，国内大模型产业竞赛更“卷”，价格战之下似乎出现同质化趋势。但同质化只是表象。本次，商汤推出的多项核心指标的升级、跨多模态的实时音视频交互等众多更新，都展现出其在大模型技术上迈上新台阶，也代表着国产大模型发展的更广阔空间。

一、多项测评超GPT-4o，日日新5.5亮相WAIC，连甩三大炸弹

二、现场演示实时音视频交互，人物视频生成大模型也来了

三、OpenAI客户免费迁移！端侧大模型9.9元包年，壮大企业应用生态

结语：硬刚GPT-4o，国产多模态大模型迈上新台阶

微信扫一扫：

相关推荐