智东西(公众号:zhidxcom)
作者 | 云鹏
编辑 | 漠影
今天,AI与我们的距离已经越来越近了。
最近各种形式的“AI作画”一时间刷爆了朋友圈,只需要上传照片,AI就可以生成各种风格的照片,比如生成一只赛博朋克风格的小猫,或者一个油画风格的自拍照。
这些应用的背后,就是近年来在AI领域大火的AIGC技术,比如前不久一度登上各类科技热榜的,能够打代码、写文章、回答各类问题的ChatGPT,就是AIGC技术的一类应用。
放眼国内,其实很多科技巨头已经在AIGC相关领域有所布局了,比如在智能终端巨头OPPO最近举办的未来科技大会上,OPPO小布助手就进行了一系列升级,推出了小布作画这样的功能。
借助AIGC小布作画技术,小布化身为一个会画画的智能助手,我们可以通过自己的描述、上传图片得到我们想要的作品,这种人与科技的有温度的交互,令人颇感惊喜,而这种体验,很快可以被数亿OPPO用户享受到。
在深厚AI技术积累之上,小布助手也在产学研方面积极布局,让技术可以更好地在产业、高校之间流动,通过融合共创的方式刺激AI技术的发展。
今年浙江大学与OPPO联合承办了中国高校计算机大赛-智能交互创新赛,竞赛将智能交互这一领域命题带给了更具想象力和创造力的新生人才,与全球高校大学生一起,探究了智能交互更多的可能性。
在此次的大赛中,一个年轻的科技团队引起了不少人的关注,斩获一等奖的三阙定则,其初创成员为几名杭州电子科技大学的学生,他们的智能绘画机器人项目,在实现前沿AI技术突破的同时,让我们看到了智能交互技术应用的巨大想象空间,同时也很好地诠释了“科技为人”的理念。
▲智能绘画机器人“杭小电”为新生画肖像素描、写祝贺信
此次智东西有幸与三阙定则科技团队的周景林、喻家瑶两位初创成员进行了近两个小时的深度交流,进一步挖掘了这群年轻人创业背后的精彩故事、产品背后的硬核技术创新,以及他们对于智能交互技术的思考,同时也对智能交互技术给未来科技产业带来的可能进行了大胆前瞻畅想。
我们深刻感受到,智能交互技术,已成为打开万物互融时代大门的关键钥匙。
一、一台小小的绘画机器人,如何诠释“科技为人”的理念?
为什么会选择做一台智能绘画机器人?这台小小的机器人能给用户带来什么样的体验,而它又与“智能交互”的竞赛主题有着怎样的联系?带着这些首先跃入脑海中的问题,我开始了与三阙定则科技团队的第一次接触。
在周景林看来,做一台智能绘画机器人的想法,与他们对于AI技术的兴趣和思考是密不可分的。
团队中的不少成员很早就开始关注AI领域,包括AIGC方面的研究,但他们渐渐发现,很多非常有趣的AI领域的前沿工作其实并没有运用到实际生活中,普通用户跟前沿科技之间的“距离感”很强。
我们平时想要接触到AI技术,比如像ChatGPT这样的AIGC应用,通常都是有门槛的,所以他们想要把这些“精彩的工作”带到生活中。
有了想法,接下来就是要找到付诸实践的路径,在探索的过程中,他们发现自己在思考的,实际上就是AI算法本身真正可以为人做些什么。
他们要做的不只是一个静态的产品,而是一个动态的过程,希望追求交互性、体验感,做到人性化。实际上,这恰恰与智能交互创新赛“科技为人”的理念不谋而合。
经过多方的调研,结合团队自身的兴趣,他们最终确定了将AI算法用于“个性化实现”的方向。因为将AI算法用在产品设计上,可以很好地满足“有创意”和“个性化”的需求,AI可以根据每个人不同的要求、提供的素材来生成拥有强烈个人特征、个人喜爱的文化元素的产品。
带着这样的想法,三阙定则科技团队最终将“杭小电”智能绘画机器人带来了我们的面前,它从大赛318所高校、1170多支队伍的项目中脱颖而出,入围决赛并斩获了一等奖,同时真正用了起来,为杭电新生制作了一批录取通知书附信和素描肖像画作品。
AI技术就这样与实际应用结合起来,让杭电2022级新生经历了一次“与科技零距离接触”。
二、实现独特交互体验背后,少不了硬核软硬件技术创新
可以说,杭小电的出色表现,让杭电2022级新生感受到了智能交互技术的独特魅力,然而想要实现这些看似并不复杂的机器人“画画”、“写字”能力,真正通过算法让机器人能够“读懂”照片并对其进行智能图像处理、让机器人真正“握笔绘画”,其背后的技术挑战是巨大的。
在产品工业设计、机械结构设计、视觉识别算法、图像生成算法等方面,三阙定则科技团队都需要攻克不少技术难题,因为他们在做的是一个全新的产品形态,需要自己去淌出一条路。
在进行技术研发创新的过程中,他们已经形成了自己的技术壁垒,目前三阙定则科技团队已经拥有10余项专利。喻家瑶特别说到,在项目推进中,团队前期进行了大量的实验,积累了高价值数据,并进行针对性算法优化,因此实验本身就决定了该项目的技术门槛是较高的。
在算法层面,目前三阙定则科技团队成员在AIGC领域已有较多论文成果输出,最近的一个成果是拿到CICAI 2022的最佳演示入围奖。团队的算法在技术指标以及图像效果方面都有比较好的提升。
在产品层面,三阙定则在硬件设备和软件方面都做出了比较多的创新,比如杭小电的产品形态在整个行业中都具有较强的独特性,几乎找不到同类产品。
对此,周景林谈到,就算法或者某一个单独的产品层面,他们会有竞争对手,但团队最大的创新性在于他们完成了从AI算法到落地产品全流程的全新探索。他们不仅完成了硬件产品的研发,还为其搭建了从网站、小程序、App到服务器的全流程软件支持。
这种全流程的创新也是他们的核心优势所在,其中需要大量的时间投入、知识和经验的积累,也是门槛较高的一件事。
比如在实际的应用过程中,团队发现了很多意料之外的挑战,他们需要不断试错,优化算法,通过和用户的持续交流去升级系统。包括原始照片数据的优化、软件操作体验的优化、用户数据隐私安全的保护。可以说杭小电最终令人惊喜的表现,离不开整个团队的技术创新能力和对于产品体验打磨的执着与认真。
三、从杭小电出发,他们选择要再“酷一把”,直面九死一生的创业
或许在很多人眼里,一群在校大学生能够做出杭小电这样一款智能绘画机器人,完成技术的攻关、十余项专利积累,并建立软硬件全流程体系,甚至想清楚未来的落地商业模式,已经是一件非常了不起的事情了。但是,这并非他们的终点,这群年轻人选择再次挑战自己,去直面“九死一生”的创业。
为什么会选择创业,面对创业路上的未知,他们是怎样一种心态?在坚定地踏上创业这条路之后,周景林、喻家瑶和她们的团队成员们又有着哪些收获和感悟?
▲三阙定则科技团队部分成员
在深入交流的过程中,我深刻地感受到,不论是周景林还是喻家瑶,他们并没有对于创业“九死一生”的畏惧或者过分担忧,相反,他们的心态甚至可以说非常“淡定”,但在淡定中,又蕴含着对于自己所从事的工作的坚定信心。
周景林谈到,对于他们来讲,大家都认为趁着年轻,一起做一些比较有趣有价值的事情,是一件很酷的事。如果真的有一天要面对所谓的失败,他们也会觉得这只是一个很精彩的试错。当然,如果能做出一点价值,他们会觉得很开心,也必然会投入更多的时间和精力去推动产品进行更新迭代。
这样的故事,看上去如此热血,但又如此真实,就发生在我们身边。
四、从学生到创业者,聚焦“人”让他们看到了AI交互的更大潜力
在创业的过程中,三阙定则科技团队逐渐从学生的心态转变为创业者的思考方式,在角色转变的同时,他们将目光更多从技术本身投向了用户体验,而这些思维的转变,也让他们看到了智能交互技术未来更广阔的发展空间,进一步坚定了他们在这条赛道上走下去的信心。
周景林回忆到,最开始做产品,团队会特别关注技术本身是否足够前沿,足够有壁垒,即使在面对用户时,他们也希望通过展现技术的优越性来创造吸引力。
但在创业的实践中,他们发现技术往往只代表了一个方面,而能够给用户带来什么样的体验,能够真实创造怎样的价值则是另一个更为关键的方面。渐渐地,他们开始从聚焦技术本身到更多关注用户的实际体验。
“三阙定则”名字中的“三”和“阙”蕴含了一些中华传统文化的典故和理念,有着浓浓的“中国味”,而“定则”又源于数学这门AI技术最底层的学科。
或许就如同“三阙定则”这个名字中所寓意的那样,科技与人文始终是相伴的,科技的出发点是解决人的需求,而人的生活质量提升又离不开科技的辅助。科技的最终目的,还是要服务于人。
▲基于三阙定则科技团队独家技术制作的“新生卡”
近年来很多AI技术都已经从实验室走向工厂、企业和我们每个人的生活,大到工业的智能生产,小到我们手机上的智能语音助手。越来越多的智能设备开始涌现,而这些智能设备的重要能力,就是能够与人交互、服务于人。
在三阙定则科技团队看来,智能设备最核心的特性是要能够为人服务,而提供这些服务则离不开智能交互技术的应用。
喻家瑶提到,目前设备智能化的一个方向就是实现多模态交互,通过给机器人输入相关的信号,包括语音、文本、图像、触控等一种模态或者是多种模态的信号,机器可以给人提供反馈,从而实现更智能的交互体验。
其实喻家瑶所提到的这种多模态交互,已经逐渐开始走入我们的生活,比如我们每个人手机中的智能助手,最开始智能助手只能回答一些既定问题,经过AI语音技术的发展,智能助手开始能够理解我们的语言并给出答案。
到如今,随着多模态交互技术的发展,小布助手已经开始能够主动为我们提供服务,这种“主动智能”的背后,涉及到算法模型的迭代升级、硬件算力的提升,以及一系列相关技术的迭代发展。
最终,我们看到的是智能助手开始成为一个“情商更高”的朋友。
可以看到,从学术界到工业界,各方都在积极推动智能交互技术的发展,并在不同形态的产品上进行落地。未来,三阙定则科技团队也会进一步迭代他们的智能机器人,通过更换转换头让机器人实现更多功能。
在智能交互技术巨大的想象空间中,三阙定则科技团队还将坚定地朝这个方向走下去。
五、产学研结合拉近学生与AI技术的距离,小布助手成幕后英雄
三阙定则科技团队无疑是诸多大学生创业中的佼佼者,在这些成功的案例背后,以小布助手为代表的AI技术提供的坚实技术、资源支持以及在产学研方面的努力,都极大地拉近了学生与前沿AI技术的距离。
在与三阙定则科技团队的交流过程中,他们特别提到了这些AI技术对于大学生创业的帮助。
周景林提到,三阙定则科技团队此次参赛的项目也是产学研结合的成果。像OPPO、阿里、腾讯这样的科技公司所提供的技术与资源,对学生团队帮助很大。
对于三阙定则这样的做AI方向研究的团队来说,项目对于硬件设备还有算力资源的要求比较高。在比赛的过程中,可以利用这些科技公司的技术与资源,从而得到支持,减少一些顾虑。
另一方面,工业界更为注重实践。学生走进企业,往往会有“鸿沟”,企业需要花大量资源培养学生,产学研结合则可以让学生拥有更多打通学术界与工业界的实践机会。
比如日常与用户零距离接触的小布助手,能够很好地将前沿技术与应用实践相结合,对于学生来说是非常好的学习机会。三阙定则科技团队成员也经常参与到这些和科技公司的沟通和交流活动中,收获良多。
实际上,通过产学研结合,科技公司也可以更好地接触一些更具备工业界落地实力的人才,这是双方互利共赢的事情。
如果我们将视角放到AI产学研融合发展来看,就会发现,作为智能交互创新赛的赛事支持方,小布助手在产学研领域一直走在国内同行的前列,是产学研融合创新的积极推手。
近年来,小布助手多次举办大学生技能大赛、承办各类AI赛事赛道。以去年6月的首届全球人工智能技术创新大赛为例,小布助手独立承办了对话短文本语义匹配赛道,该赛道吸引了5345支队伍参赛。
同年,小布助手还主办了“‘布’可思议的AI”大学生技能挑战大赛,给许多高校学生提供了在AI领域进行交流、竞技的机会,通过“科技之教、科技之善、科技之美、科技之趣”四条赛道的赛题,让学生们探索了智能助手在教育场景下的应用、AI语音技术在公益场景中的落地等AI技术方向。
在办赛之余,小布助手还积极推动与高校的科研合作。在国际语音顶级会议INTERSPEECH 2022首届Spoofing-Aware Speaker Verification(SASV)挑战赛中,昆山杜克大学和小布助手团队联合组建的队伍“DKU-OPPO”斩获了亚军,为同时集成声纹识别和伪造音检测两项技术的联合系统提供了优异的解决方案。
值得一提的是,小布助手还于去年6月成立了“小布助手学术顾问委员会”,该委员会成员包括中国科学技术大学教授、杰出青年陈恩红,南方科技大学教授、长江学者唐珂,清华大学计算机系长聘副教授、智能技术与系统实验室副主任、自然语言生成与智能写作专委会副主任黄民烈等知名学者,阵容十分豪华。
学术顾问委员会不仅可以提高小布助手对AI前沿技术预判的准确性,为小布助手自身业务发展和决策提供支持,还可以通过与学术界联动,实现人才资源与企业资源更高效的匹配,实现科研成果的高效转化。
可以说,从科研机构、专家到高校、学生,再到技术在产业中的落地,小布助手正积极打通产学研高效转化的全链条。
结语:智能交互技术加速“科技为人”落地
三阙定则的“杭小电”让我们看到了智能交互技术应用的高价值和潜力,以及AI技术服务于人能够带来怎样的可能。而从周景林、喻家瑶两位核心初创成员身上,我也深刻感受到了当代大学生对于科技前沿技术创新的热爱、面对创业艰险勇敢拼搏的精神,以及对于“科技为人”理念独到而深刻的理解。
毫无疑问,在万物互融的未来,为人提供智慧化服务必然会是所有智能产品的核心能力和要求,而智能交互技术则会在其中扮演至关重要的角色。
作为OPPO智能交互技术落地的关键承载之一,小布助手已然在AIGC等多个AI前沿技术方向积累了大量经验和技术,并推动相应AI技术进行产品化应用落地。
另一方面,在产学研融合创新上,小布助手一直是业内最积极的推动者之一。如今产学研结合的魅力逐渐凸显,以三阙定则项目为代表,这种科技巨头与高校学子之间擦出的“科技与人文交汇”的浪漫火花,仍然未完待续。