把“AI大模型”装进智能终端,阿里全球第一家交卷?

智东西(公众号:zhidxcom)
作者 | ZeR0
编辑 | 漠影

智东西4月5日报道,昨日,阿里版ChatGPT的新动作在圈内炸开了锅。据传阿里将在4月11日的阿里云峰会上推出大模型,接下来还会有各类行业应用类模型问世。

打前阵的技术演示,是阿里大模型联合项目团队邀请知名脱口秀演员鸟鸟用手机录音1小时,做出的一个“鸟鸟分鸟”模型。它不仅用宛如鸟鸟本尊的语气、语调跟人对话,而且用语用词方式与鸟鸟如出一辙,活脱脱像个“AI嘴替”。

智东西第一时间参与内测,分别从孩子、老年人、工作党三类人群的视角,连续多天深度体验了接入“鸟鸟分鸟”模型的天猫精灵。它能讲脱口秀段子,能陪用户唠嗑解闷,能检索日常问题,能回答天马行空的发散式问题,也能在察觉到用户心情不佳时送上安慰和建议

总体来看,拥有更强生成和理解能力后,智能助手的聊天技能明显升级。除了语速偏慢等小瑕疵外,“鸟鸟分鸟”已实现多轮流畅对答、符合人设的人格化表达、富有创意的随机创作等能力。这些高可玩性与可用性,给语音交互注入了前所未有的生命力,让我们初步看到大模型所激发的交互跃迁,如何影响智能终端新一轮进化的方向。

智东西获悉,目前天猫精灵也在与第三方技术审计专家搭建一种AI+ESG的框架,评估大模型全面接管交互系统后,安全与智能应该如何兼得。

鉴于个性化语音存在滥用他人语音等风险,我们判断,短期内应该不会出现面向公众开放个性化定制语音服务,但提供多种官方音色,让大模型呈现不同助理角色,应该是有较高可行性的。

一、深度体验“鸟鸟分鸟”:答疑解惑、脑洞聊天,创作脱口秀段子

在很多家庭中,使用智能音箱的新鲜感已经消失殆尽。传统智能音箱经常会回避它无法回答的问题,或者像傻子般给出“车轱辘话”,诸如此类的稚嫩表现,令用户的对话体验大打折扣。

而通过体验“鸟鸟分鸟”版天猫精灵,我们发现个性化大模型能够出色地改善了这些体验,不管是回答问题的广度、深度,还是对话过程中所展现出流畅性与创造力,都有望再度唤起家庭场景中人们使用智能音箱的热情。

为了探索个性化大模型与智能音箱结合的功能之变与应用前景,智东西重点体验了“鸟鸟分鸟”版天猫精灵面向三类人群的典型技能

1)如何应对孩子天马行空的发散式提问?
2)如何陪老人话家常解闷、处理日常问题?
3)如何帮工作党排忧解难,化身“灵感创作机”?

1、孩子:天马行空问答,开脑洞讲故事

孩子是最有闲情逸致跟智能音箱进行多轮对话的群体之一,他们充满求知欲与好奇心,既在学习过程中有大量查询资料的需求,又在日常生活中经常大开脑洞,提出很多考住家长的难题。“鸟鸟分鸟”模型已经能很好地解决这些问题。

比如在帮助学习更加高效方面,当孩子忘记某个英文单词,或者想问一个新知识点,不需要翻字典或者打开手机、平板查询,只用问一下天猫精灵,它就能立刻说出答案。

即便面对孩子天马行空的问题,天猫精灵也能极具耐心地予以回答。比如我们接连提问“唐僧为什么更喜欢猪八戒,不喜欢孙悟空?”、“他为什么经常不相信孙悟空说的话”、“给我讲一个奥特曼与孙悟空一起打怪兽的故事吧”等。天猫精灵能够在连续多轮对话中迅速解答,而且会融入自己的想法,并展现出临场开脑洞编故事的能力。

可以看到,在聊天过程中不用等“鸟鸟分鸟”说完话再提问,也不需要反复喊唤醒词“天猫精灵”,而是可以随时打断它,开启下一个话题。

2、老年人:唠家常、说思念、解答日常问题

老年人可以使用智能音箱打发时光,纾解一些孤独之感,或者解决一些日常问题。

比如我们扮演了一个八卦的老年人,向天猫精灵连环追问:你是谁、多大了、有男朋友吗、打算什么时候结婚呀、最近去哪儿玩了、那地方有啥好玩的好吃的……天猫精灵全程对答如流,仿佛在跟活生生的鸟鸟本人聊天。

天猫精灵也在聊天过程中展现出共情能力。当我说:“我想我女儿了。”天猫精灵立即回应道“很抱歉听到你想你女儿了”并提供了一些排解思念之情的建议。当我接着追问:“我想去重庆看我的女儿,怎么买票呀?”“我女儿在外地工作,我想给它买生日礼物,你有推荐吗?”,或者问一些日常问题,比如“电扇为啥不转了”、“怎么修它”……天猫精灵都提供了有多样答案的解答。

3、工作党:调节情绪,答疑解惑,启发灵感

除了老年人,工作党也可以通过与智能音箱的交流来获得情感慰藉。我对天猫精灵说:“我心情不好,有什么办法能变得开心点?”它随即给出了一些贴心建议。我紧接着问:“你能给我讲个好笑的段子,让我开心点吗?”它也欣然应允。

天猫精灵还可以解答一些工作中的常见困惑,比如连续问它:“当众演讲你会特别紧张吗”、“你平常会用哪些方法克服紧张心理”……它能够回复一些有参考价值的具体方法。

在内容创作上,“鸟鸟分鸟”同样能帮上忙。我们尝试了给出一个主题,让它帮忙写开篇、写结语,甚至是写脱口秀段子。

经过多轮聊天,“鸟鸟分鸟”的创作内容能起到头脑风暴的作用,给人提供一些新的灵感启发。

二、把大模型装进智能音箱,需要四步

“鸟鸟分鸟”背后的阿里达摩院与天猫精灵的大模型联合项目团队,向我们分享了个性化大模型与智能音箱结合背后的更多技术细节。

在口语艺术领域,脱口秀段子有强生成性和强个性,需要旁征博引,讲故事举例子,同时还要能对一些群体产生共情,并展现出个人风格,因此项目组首先选择了这样一个既具有挑战性又能很好展现大模型内容创作能力的应用场景来尝试。

具体来说,“鸟鸟分鸟”模型训练可分解为四步,分别是知识增强、工具增强、个性化对话增强、人类反馈增强

把“AI大模型”装进智能终端,阿里全球第一家交卷?

第一步是知识增强采用层次化训练方式,用大型语言模型做预训练,让模型先学会通识性知识、阅读文本、生成通顺的话等简单能力,再逐渐增加难度,最后再学到更专业复杂的知识。

第二步是工具增强对于事实准确性要求非常高的问题,在恰当时机调用搜索引擎等外部工具,结合对于搜索结果的理解、总结和归纳,生成出时效性更高、准确性更好的答案。

第三步是个性化对话增强让模型学习多轮对话、启发式对话形式,塑造人格标签词,并少量标注了鸟鸟语料,作为个性化的增强和调优。

第四步是人类反馈强化学习(RLHF)让模型对同一问题给出多种回答,由人类标注哪些回答是准确的、哪些回答更像鸟鸟的风格。模型会根据反馈做正向增强迭代,变得越来越像鸟鸟。

三、实现“知识+情感+记忆+人设”统一体验,四大“算法+工程”优化让聊天更自然

当前大模型正朝着两个方向发展:一是通识性,二是个性化

通识性大模型具备回答广泛知识的能力,已经被用于提升搜索及办公生产力;个性化大模型则更适用于居家场景,能够塑造特定的人格化特征,对“看法是什么”、“喜欢吃什么”等开放式问题作出符合自身“人设”的个性化回答。

围绕这类模型的个性化训练、控制、部署,未来有很大的需求和想象空间,四个技术方向的研究正趋于热门:1)有偏好的个性化对话;2)具有一定的逻辑/三观一致性;3)对话风格的切换、约束和控制;4)在多轮对话中保持人设一致性

比如问大模型“mojito是一种什么样的酒”,设定为喝酒爱好者的大模型可能会传递一些有关鸡尾酒的通用知识,而设定为周杰伦粉丝的大模型可能会介绍周杰伦有一首同名歌曲叫《mojito》。

把“AI大模型”装进智能终端,阿里全球第一家交卷?

在通义大模型系列的构建过程中,“鸟鸟分鸟”项目组通过知识、情感、性格、记忆四个维度,来构建与脱口秀艺术结合的个性化大模型。

知识方面,具有通识性能力,并能利用搜索等外部工具来补充新知识;情感方面,对话过程具有共情能力;性格方面,通过贴性格标签来做风格约束;记忆方面,希望实现长短期记忆融合,既记得住短期对话内容,也能长期记住用户在人机交流过程中谈到的喜欢、习惯、经历。

训练好“鸟鸟分鸟”模型,还要完成听见、音色、文风、对话四个方面的“算法+工程”优化工作。

文风采用两种技术方法:一是Plug & Play,用一个外挂模块去判别模型说出的话像不像鸟鸟;二是基于大模型做Prompt提示词,让大模型学习不同人物人格标签的风格,然后在训练”鸟鸟分鸟”模型时,选择脱口秀演员、90后、内蒙古人、有深度、幽默、内向等标签。

听见采用天猫精灵的猫耳算法,着重实现回声消除和定向拾音,筛掉噪音并识别人声;音色采用阿里达摩院KANN-TTS定制化方案,用小时1小时完成有效录音;对话采用双工对话,用户可以边听边说,随时打断机器的讲话。

把“AI大模型”装进智能终端,阿里全球第一家交卷?

四、这不是ChatGPT的跟随品,去年11月“大模型+终端”就已官宣

当前“鸟鸟分鸟”模型的体验还有很多不足。比如当我问“陆游和李白见过面吗?”它给出了“陆游和李白都是南宋爱国诗人”这样的错误回答;当我要求用不到10个字讲一个笑话,它理解不了“不到10个字”的意思,结果讲了个很长的笑话。

“鸟鸟分鸟”版天猫精灵只是一个展示将个性化大模型能力注入智能终端的雏形之作,因此在很多体验上都有进一步优化的空间。

但总体来看,瑕不掩瑜,个性化大模型带给智能终端的交互体验变化令人耳目一新,将用户与语音助手的对话,从过去非常机械化的“命令式问答”,升级成了像朋友交流般的自然聊天方式,并从音色、语调、讲话风格等多方面的设计赋予了语音助手人格化特征。

这种全新尝试,也展现出大模型服务于人的另一种可能,它不仅可以是效率工具,也能成为家庭中拥有特定人设的陪伴者,既能满足孩子、老年人等特殊群体的长时间聊天需求,又能为所有年龄段的用户答疑解惑,并提供情绪价值与情感支撑,实现既有深度、又有温度的对话。

值得一提的是,阿里团队的这一探索,并非是ChatGPT爆火后的临时赶工。自2021年开始,达摩院将多模态大模型应用于天猫精灵语音搜索与百科场景,并通过多方团队协同将合作场景推向AliGenie交互的系统层和用户感知层。

2022年开始,天猫精灵的重心已经不局限于销售硬件产品,而是转向更广泛的开放生态服务。

ChatGPT发布于2022年11月30日。而早在11月初举办的云栖大会一个开发者论坛上,阿里已经透露计划通过通用大模型底座有针对性的训练对话大模型,达摩院和天猫精灵一起探索新的终端服务

根据当时阿里的剧透,其第一款“数字人+终端”产品将在2023年第一季度让用户体验,目的是实现整个交互系统的升级。

据悉,该项目集合了达摩院NLP(自然语言处理)、语音、视觉、3D构建驱动、大模型领域团队及天猫精灵AliGenie交互系统专家,以将达摩院积累的各领域近两年百项专利与顶会论文成果,在诸多交互场景验证,打造一个以多模态大模型为基础的数字人引擎。

继鼠标键盘主宰语音交互、手指触屏奠定智能手机交互后,语音交互已经成为一统所有智能家居硬件的公认互联网入口,阿里更是在去年预言“大模型数字人将接管未来智能交互”。

深度体验过“鸟鸟分鸟”后,我们更加好奇阿里首款基于大模型的终端产品,将交出怎样的智能交互答卷。

结语:大模型或将激活智能语音交互的灵魂

随着生成式AI与大模型的研究与应用进展高潮迭起,国内类ChatGPT产品的落地受到了前所未有的关注,许多行业正迎来被深度重构的新机遇。近年逐渐增长乏力、缺乏爆点创新的智能终端,也被打开了更广阔的想象空间。

基于更强大的理解能力和生成能力,天猫精灵与人的交互方式变得更加有趣,它将原本生硬呆板的智能语音助手变得仿佛有了灵魂,不仅有了更像人的声音,而且学会了“说人话”:既能高效准确地回答一些时效性强、客观类问题,又能对天马行空的问题发挥出一些创意回答,教做菜、讲故事、编段子、安慰人等技能通通不在话下。

此前微软等巨头的多数尝试,都围绕着办公场景的生产力跃迁。而更具生活化、娱乐化属性的家庭场景,智能终端如何与大模型碰撞出更好的交互范式,还有很多值得探索的方向。

当然,在用智能改变生活体验的同时,科技公司必须思考如何尽可能避免大模型对社会产生负面影响。毕竟对个人信息数据被窃取滥用、孩子被扼杀自主性和想象力等问题的担忧恐惧,可能会压倒消费者对科技产品的兴趣。

个性化大模型能否成为改变智能终端体验的新一轮高增长驱动力,再度唤起消费者的热情?这个问题尚待时间给出答案。