智东西(公众号:zhidxcom)
编辑 | 李水青

智东西6月4日消息,近日GTIC 2021嵌入式AI创新峰会在北京圆满收官!在这场全天座无虚席、全网直播观看人数逾150万次的高规格AI芯片产业峰会上,来自产业链上下游的16位大佬共聚一堂,围绕嵌入式AI的软硬件生态创新、家居AIoT、移动机器人和工业制造产业4大版块地图,带来了深入浅出的分享。

会上,阅面科技联合创始人&CEO丁小羽带来题为《面向智能家居的嵌入式视觉之旅》的演讲。阅面科技是我国嵌入式视觉识别技术领域的新锐玩家,其创始人丁小羽曾任卡内基梅隆大学机器人所助理研究员,回国创业几年,一直在做嵌入式视觉在民用领域的落地,丁小羽把它看作是团队的一个旅程。

阅面科技丁小羽:自然人机交互成智能家居主题,多模态技术融合日益重要

▲阅面科技联合创始人&CEO丁小羽

丁小羽谈到,阅面科技的嵌入式视觉技术发展经历了四个阶段:

一是AI和算力的适配阶段,二是AI和传感的融合阶段,三是行为/健康AI智能终端阶段,四是全屋智能的感知基础阶段。

其中在行为/健康AI智能终端阶段,阅面科技主要开发创新型硬件,整体地设计人机交互,以智能终端的形式部署,让设备能主动感知人体行为动作和生理体征等状态。

而在全屋智能的感知基础阶段,阅面科技的目标是实现智慧的人居环境。丁小羽认为,家庭AI拥有隐私数据规范、应用形态灵活、交互亲切自然等特点,超越人眼视觉的AI传感融合有很大机会。

“尽管目前智能家居还处于初期发展阶段,但智能家居服务最终会从数字化空间走到机器人服务的物理空间阶段。”他谈到,在这一阶段,人和系统的自然交互已成为智能家居发展的主题,超声波雷达、热成像等传感技术的融合越来越重要。

阅面科技丁小羽:自然人机交互成智能家居主题,多模态技术融合日益重要

以下为丁小羽演讲实录整理:

大家下午好!

回国创业这几年,我跟团队一直在做嵌入式视觉在民用领域的应用落地,我们把它看作是团队的一段旅程。今天跟大家来做一次分享,谈到我们做的工作及一些比较个性化的体会,很难说是“正确的”,但希望对大家有帮助。

一、自然人机交互成智能家居主题,阅面科技选择嵌入式视觉

丁小羽首先谈到:

跟很多在座的朋友一样,我们从这点出发, 从实验室的图像识别做起,去往全屋智能、智能家居的方向。

我们把智能家居看作是一个方向,而不是一个行业,看作是一个大家都想去追求的更懂你的家——这个家可以感知人的需要,去理解人的需求,恰如其分地提供服务。(比如)我回到家的时候想做一件事,打开窗帘、听一首歌,并不想在手机18个APP里面找到应该用哪个,也不想跟手机说话,并不自然。

我们朝着这个方向,沿途经过了跟芯片的结合,做到把实验室的GPU服务器上的算法做到嵌入式芯片上,把(视觉识别)模块用到像人脸抓拍摄像机、门禁闸机的行业应用上,一步步小型化。去年,我们开始大规模进入家庭场景,比如将3D人脸识别做到门锁上。

现在我们看家庭AI服务这里怎么走还是一团迷雾。智慧的人居环境是大家都想去的方向,有人从“开关上网”去做,有人从智能音箱去做,我们则从嵌入式视觉这条路去走。怎么过去是未知的,但这也是有意思的地方。

一个团队的出发点非常重要——人都有路径依赖,有时候是自己知道的,有时候是不知道的。现在回想起来当时出发时的环境,其实深远地影响我们对事情的认知,包括(处理问题)一些思维习惯。

比如,当时我们出发的时候,大部分是静态图片的识别,目前大部分的网络设计在交互过程中也还是静态的,只是在时间域上加权策略性的方式。当时,端到端刚刚兴起的时候,我们应用到实际环境中发现,真正要在成百上千万的设备上都得到不错的效果,其实理解整个决策过程的网络可解释性是非常重要的。这是当时的环境决定,导致现在需要克服的一些问题。

二、拨开家庭AI服务迷雾,阅面科技走出的四程路

随后,丁小羽分享了阅面科技在嵌入式视觉这个方向上走过的四程路。

其演讲实录如下:

1、第一程:AI和算力适配,讲求精准打击

带着这些问题,我们第一程做的是把实验室GPU集群上的视觉计算搬入到嵌入式设备上,抽象层面做的是AI和嵌入式算力的适配。 上午听了很多嘉宾分享算力这块,大家已经开始在反思,非常同意算力不是评价芯片的唯一标准,甚至不是一个最重要的标准。

分享一组数字,最早做VPU视觉模组的时候,芯片算力0.1T,今天看来是很小的数字,当时我们已经可以做本地的连续无感人脸检测和追踪,在抓拍机这些应用上可以运行的很好。现在,算力已经翻了几十倍,甚至芯片价格还变得更低。

今天跟大家分享一点,对AIoT智能家居的应用来说,还是要讲精准打击的,最适合这个场景包括I/O、存储各方面,综合性能要最适合,算力是其中可以说是比较小甚至有些资源过剩的一块。用超过十余家的芯片公司做过量产产品,甚至我们觉得做这个事情不是为了赚钱,只是为了跟芯片圈交个朋友而已,今天很高兴认识更多芯片圈的朋友,大家一起朝智能家居方向更进一步迈进。

目前有超过两百万台设备使用阅面的嵌入式AI方案,像智能门铃和智能门锁等,去感知人、理解人。这里我们做的只是是智能家居方向很小的一块,把原来在实验室集群上做的事情搬入到嵌入式芯片上去。整个过程还是有很强的路径依赖,过程还是静态的、单向的。具体来看,模组我们当时做近景和远景两个版本,多核异构当时还是很新的词,现在很多芯片都已经这么设计了。

(当时视觉模组)典型应用主要是社区级的安防,工作主要是模型检测、底层硬件的加速框架、低比特量化、模型剪枝。现在好像并不需要自己写底层硬件的加速框架了,但算力适配这个事情主要框架还是当时那套,本质提升并不是很多。右边图上是用在门禁上的模组——两个摄像头混合双目摄像头,通过多模态的方式把人和照片区分开来,这是我们做模组过程中发现比较有意思的事情,引出下边AI与传感融合的话题。

阅面科技丁小羽:自然人机交互成智能家居主题,多模态技术融合日益重要

2、第二程:AI与传感融合,可量产性面临挑战

(谈到实际应用中),从实验室出来我们的环境不再是静态图片,而是真实场景——真实场景中蕴含丰富信息,“AI跟传感融合”这个事情变得非常重要。

2017年,我们开始把越来越多的重心放到传感融合上面,3D是其中一块。要抓取场景中更丰富的信息,要超越人眼视觉能力,可用到的传感技术很多,像3D成像的各种技术实现,还会用到毫米波、超声波雷达等。

创新传感技术可以定义更丰富灵活的识别功能,(比如)可以做金融支付级的活检安全标准;在隐私敏感场景使用,在拍摄用户时身份脱敏“去ID化”;适合用到老人看护等场景当中去。

我们今年投入了比较多的时间来做健康传感方向,通过非接触无感方式去持续监测人的呼吸和心率。设计过程中比较有意思的地方是神经网络和ISP功能打通,芯片公司也在用神经网络做ISP,做完以后成像结果给我们,我们这边再用神经网络做视觉结果,很自然大家想有没有可能把两个网络合成一个网络去做,这里我们积累了很多联合优化经验。

前面谈到意识到和摆脱路径依赖很难,算法团队倾向于用模型调参去解决问题,即使传感成像方面的优化有时更容易提升整体效果。同时考虑整个方案的可量产性,因为涉及到AI跟传感的结合、特殊摄像头标定等等因素,面临非常大的挑战。

抽象层面是在做传感融合,具体工作这里举例3D人脸识别的门锁模组。那用在智能门锁上,最主要的功能还是帮助智能门锁刷脸开门。同时希望有超长的带机时间、单次换电希望用6个月以上,并且流畅、安全。

这里是我们新版模组的实测数据显示,从上电启动到电机解锁,即门可以推开大概要2秒钟时间。大家可以看到,跟算力最相关的活检和识别部分的整个时间只有300毫秒,其实并不是系统的瓶颈。而内存加载等部分其实是越来越限制时间进一步优化的瓶颈。我们希望智能门锁达到的体验目标,就像大家过高速收费站一样,需要减速,但是不需要停顿就可以进到自己的家门。一般门锁在人距离1米的时候感应触发,人走过去的时间1秒,那目前水平在门前需要停留1秒,这1秒就是接下来要优化的空间。我们希望跟产业链一起努力,在芯片的I/O设计、量化方式和模型怎么做得更小等方面有所突破。

阅面科技丁小羽:自然人机交互成智能家居主题,多模态技术融合日益重要

3、第三程:AI智能终端阶段,整体设计人机交互

第三程,讲到传感融合我们进入智能终端阶段,强调整体性而不仅是一个模组。

回顾2016年我们刚开始在行业推出嵌入式AI方案的时候,业内容易接受的方式是做功能叠加,把一套算法或者模组附到传统的设备上,设备本质上还是一个门禁机等传统功能,只是具备了人脸识别功能。

到第三程阶段,算力和传感的基础具备一定条件,我们可以做创新型的智能终端,从整体去设计AI嵌入式能力和人机交互交互过程。

大家分享两个具体的例子:

(1)AI婴儿监护器,我们通过毫米波雷达等创新的AI传感融合技术,可以持续无感做睡眠周期的统计,体温、呼吸、心率的监测、异常事件的预警,这个产品逻辑是通过改善婴儿睡眠来改善整个家庭的睡眠,也很好的体现了我们想实现“有温度的技术”理念。

(2)3D行为识别相机,目前还用在行业场景,我们做技术积累,希望很快能用到家庭上面。如图这里做了远距离的3D行为分析,可以在10米范围用世界坐标做精准的测量和分析,人和物的相距状态等。这个设备在不远的将来有望在功耗和成本上小型化,做到家庭场景3D感知终端。

阅面科技丁小羽:自然人机交互成智能家居主题,多模态技术融合日益重要

4、第四程:全屋智能感知阶段,构建家庭AI中心

第四程,方向是全屋智能,但是路径上还不清楚,如图上的迷雾。

我们想要实现家居智能的一个“空灵”境界——用户回家后是“空”的,不需要打开手机找APP,开窗用哪个APP,开灯用哪个APP,不停地跟它说话指令它,而是环境感知人理解人提供服务,智能硬件都是很有“灵”气,可以恰如其分提供服务,打造家居智能硬件朋友圈。

如图我们看智能家居发展这几个阶段,感知阶段就像我们做的人脸识别门锁可以主动识别门前情况,主动开门和关门。数字化服务阶段,像小孩回家等事件可以通过微信小程序的方式推送到用户手机上。之后产业界会把这个服务从数字化空间延伸到物理空间,提供机器人服务,而这里我们做的是其中整个全屋智能的感知基础技术。

我们设计的整套系统包括家庭的AI中心、连接存储和计算的功能和一系列智能终端矩阵。我们从嵌入式视觉这个角度来做,一些各种形态的智能摄像头,以各种各样的形式,比如门铃门锁,会议摄像头和台灯等嵌入家居环境。

家里会出现越来越多的智能摄像头,初听来可能会觉得这个事情有点可怕,其实大家每天都随身带着几个智能摄像头。家庭AI的影像数据逐步应用规范化,数据加密和去ID分析等隐私安全技术应用趋向成熟. 同时以家庭专属AI系统的方式提供高频、刚需、订阅服务,数据隐私规范性基础上提供便捷。

阅面科技丁小羽:自然人机交互成智能家居主题,多模态技术融合日益重要

三、前半程关注软硬一体,后半程关注传感融合

我们前半程关注软硬一体,算法怎么搬入到嵌入式芯片上去,后半段传感融合,结合创新型的热成像技术、毫米波雷达等传感技术,在场景端抓取丰富信息,再往后的主题应是用户交互和系统服务. 从应用场景出发不断调整关注重点。

家庭AI场景的隐私数据需要规范,应用形态也比较灵活。这里灵活性对芯片公司提出很大的挑战。我们看到门禁道闸等行业应用对嵌入式AI芯片的要求一段时间是稳定的,也确实出现了切入点准确长期成功的芯片。而家庭场景的AI应用变化很快,芯片需要应用到设计时没有考虑甚至还不存在的具体场景,这就特别需要跟算法结合以适应灵活性的挑战。

现在我们已经看到可以做咖啡的机械臂,AI服务正在从数字空间开始逐步延伸到物理空间,在这个过程中AI融合3D传感技术是越来越重要的一个方向。

此外,仿生是一种设计参考而不是限制,超越肉眼可见才有更大的机会。我们可以从数据的角度,大数据推断当前的状态和正常的区别,也可以从传感的角度,从超声波雷达检测到人的呼吸角度去超越一般的肉眼可见的水平,提供家庭场景定制化的产品和服务。

从算力和传感的介绍也可以很明显看出,我们今天做的这个事情依赖产业链的共同进步。我们也一直在行业里面寻求优秀的同行者,特别像嵌入式AI芯片的公司、创新传感的公司,大家想去的方向一致,路径有别,希望在各个阶段可以深入交流,相互促进。

以上是丁小羽演讲内容的完整整理。