智东西(公众号:zhidxcom)
文 | Lina
编 | 四月
人工智能第三次浪潮风起云涌,产业界大浪淘沙,在“GTIC 2017全球(智慧)科技峰会”感受时代脉搏,看见未来。
3月10日,由智东西、AWE、极果等联合举办“GTIC 2017全球(智慧)科技峰会”在上海证大喜马拉雅中心正式开幕。学术界、投资界、创业圈和产业链在这里激烈交锋,NVIDIA、Neato Robotics、科大讯飞、商汤科技、科沃斯机器人、Ninebot(纳恩博)、威马汽车、奇点汽车、驭势科技、歌尔股份、地平线机器人等近40位大佬轮番登台。
作为2017年上半年人工智能领域规格最高的峰会,GTIC聚焦“机器人产业”、“汽车新势力”、“家居物联生活”领域,探讨技术变革下的掘金机会、消费升级与生态建设,带来最前沿的实践经验和判断。
在下午的演讲环节中,地平线机器人副总裁张永谦发表了名为“‘端+云’点亮智能家居新时代”的主题演讲,详细解构了智能家居在发展过程中的遇到的四大难点及解法:应用场景多而分散、用户体验复杂、技术需要发展、个性化大数据收集。
以下为张永谦演讲的要点精摘:
1、目前中国的4亿家庭中,有1亿为中产阶级家庭,智能家居市场非常庞大,智能电子设备能够达到每年万亿市场,其它消费及服务则高达每年50万亿。
2、未来,家庭人工智能的进步趋势:物理入口分散化到智能设备、智能家电、智能硬件上;交互方式升级到图像、语音、触控;以及决策过程从人类自主决策升级到AI主动推荐。
3、智能家居市场未能爆发的原因:
1)应用场景多而分散:娱乐、健康、教育、家电、玩具、摄像头等;
2)用户体验复杂:真实场景下的自然交互非常困难;
3)感知、认知、传感器融合技术等发展存在难点;
4)个性化大数据收集需要优化。
4、面对应用场景多而分散的问题,要找到主要矛盾与不变量,即主体是“人”。基于人脸、动作、人体、语音、以及各种围绕人的家庭应用,深入解决“人”的问题。
5、在技术上要完成对智能家居最好体验的布局,必须把图象和语音的技术融合,只是单独的做语音和图象是缺位的。人的交互和获取信息采用融合的方式,单独的语音和图象,或者单独的其他任何传感器,都不能涵盖所有的应用场景。一定是“图象+语音”。另外,视觉价值是高维的,80%的价值信息来自于图象,只有20%来自于语音。
6、将来的智能家居市场是端+云的架构。端智能的价值在于:不依赖于网络,稳定可靠;具备实时性;可过滤有价值数据。云智能的价值方便收集数据,持续优化用户体验;每一个智能硬件都可支持智能APP;具备移动性,升级本地智能硬件,不受空间限制。
7、智能家居自然的用户体验解法——语音+图像的融合,除了依赖麦克风的被动交互,还要使用摄像头进行主动交互,更懂用户,更好的体验。
以下为张永谦在“GTIC 2017全球(智慧)科技峰会”上的演讲全文:
张永谦:谢谢大家,我来自地平线,地平线是由百度前IDL院长于凯博士创建的一家嵌入式人工智能的公司,今天很高兴有这个机会给大家介绍一下我们对智能生活整个行业趋势的一些思考以及我们在中间做的一些事情。
在讲之前,先谢谢陈震刚才对我们的鼓励。首先谈到这个智能生活,其实在中国,大家看到我们有1亿的中产阶级家庭,这个市场非常大,这一亿家庭他们的年平均收入在30万到70万人民币左右,当然说到这个智能家居的市场,大家脑海中的第一个印象是电子设备,其实这个市场虽然很大,有一万亿,但是我们认为,他只是一个智能家居市场的非常小的一部分,真正的智能家居市场的潜力还是在于其他的家庭消费和服务,这个每年的市场是50万亿,现在这个市场是10%通过线上的方式进行,当我们谈智能家居的时候,如果哪个公司或者企业能够更方便、更快捷和更精准的帮助我们的消费者进行他在家里的消费以及获取想要的这个服务,这个市场是最巨大的。
这个市场这么大,我们看一下对这个市场发展趋势的一些思考,我们觉得有三个比较明显的变化,是已经发生或者会在未来的很快的时间内发生的。第一个是物理入口,现在大家很多时候在家里面都是通过手机和PC上网,大家会发现,手机和屏幕是一个非常小的屏幕,也非常拥挤,千军万马挤独木桥,将来会有一个非常明显的趋势,就是整个消费和服务的接入是会分散到各个智能设备的,将来在家里,每一个硬件都是一个独立的APP,你发现冰箱里面没有饮料的时候,你不需要打开手机购买,你可以直接一句话告诉形象,下午给我送一打啤酒过来,将来家里的每一个智能硬件都会是一个服务的入口,这个是真正的给我们智能硬件带来的巨大机会。
第二个是交互方式,最传统的是通过键盘和触摸屏这样的方式,随着语音技术的进步,这个会很快的普及到我们的生活当中,我们觉得,在不远的将来一定会有一个更为重要、更为重量级的方式,就是通过视觉的交互,因为这个里面也是和人在家里的消费以及需要获取服务的决策过程密切相关的。
因为现在大家可以看到,不管是通过触控还是通过语音进行交互,其实他都是一个人的主动决策的过程,语音呢是作为最方便的一个交互方式,他有非常大的发展前景,但是他仍然是被动的。语音这个系统本身并不知道你要做什么,直到你告诉他。但是图象这个方式,这是一个新的交互方式,是一个主动的交互方式。也就是说,在很多的场景之下,比如说举个例子,我们可以想象一下,将来家里面在阳台上放一个大的篮子,里面是脏衣服,现在我们有上门洗衣的服务了,这个篮子里面的衣服累计到一定程度的时候,这个阳台有一个摄象头,自动的联系上门的洗衣服务,你根本不用操心,所有的是通过 主动的方式完成的。
将来的消费以及服务会更多的是通过AI主动推荐的模式,这个里面带来的市场商业机会是会远远大于传统模式的。因为这个图象的模式相比语音和触控是更高维的模式,在这个里面我们获取到的信息也是远远大于触控和语音这样的二维方式带来的信息。我们现在看到智能家居的演进过程三个比较明显的变化,这个是会给我们带来很大的商业机会。
说到这个变化的趋势以后,我们对于目前智能家居市场大家都说了很多年,但是为什么一直没有起来,我们也仔细的思考了一下,我们觉得有四个方面的原因。第一,左上角这块,应用场景分散,比如安全娱乐、家庭服务等等,还有家里面的智能设备过于分散,比如玩具、机器人、摄象头等等,所有这些分散的应用场景和电子设备会导致当我们想把他们智能化的时候,你是很难快速复制的。第二个挑战,是技术,在智能家居里面你要服务人,这个人是非常难以服务的,这个里面技术的挑战,有语音、图象等等,我们今天要解决很多的技术难题,仍然是有很大的挑战。第三个,数据,数据的搜集和分析是一个很难的过程,首先,家里面每个场景都是高度分散化的,每个家庭的需求也是不一样的。
其次我们觉得,大家可能会比较容易忽视的问题,你只是拿到大数据,这其实是远远不够的,因为我们今天会发现,你家里安装上很多的接口,你搜集到很多的数据,但是这些数据很多都是没用的数据,如果不停的把这些数据上传到云端,这会占用很多的资源,而这些数据基本都是无效的。所以我们搜集数据的时候,我们要思考,不仅仅要搜集数据,而且要搜集真正有价值的数据。但是这个事情并不是这么容易做到的。第四个挑战,真正的用户体验,我们现在人工智能的技术得到了很快的发展,但是真正让人满意,让人感觉到这个交互的方式和服务的方式非常自然,这仍然是非常大的挑战。这并不是一个纯技术的问题,牵涉到很多其他的问题。有了这些挑战,人工智能在智能生活上的普及,我们觉得一定不是一蹴而就的事情,一定需要一段时间的慢慢积累。
应对这些挑战,我们地平线有自己的观点,第一,应用场景分散的问题,从我们的角度来看,我必须要抓紧中间的主观矛盾和变量,我们认为这个主要矛盾和变量就是人,我们现在人工智能的技术在智能家居这个领域就应该把人做透。比如说我们看安全,现在家里面装很多摄象头主要的目的是为了安全,而安全其实核心是什么呢?最主要的是想知道家里有没有人,第二,我要知道这个人是什么人,第三,我要知道这个人的行为,他做的行为是安全的行为还是不安全的,比如小孩子进入厨房,会不会点煤气灶,这些都是不安全的行为。这些所有的都是要人做的。比如娱乐,家庭服务、健康、教育等等,就不一一举例了,如果你好好思考的话,这个背后主要矛盾和变量就是人。我们地平线在这里是从人脸到人的行为分析,到人体的环境,以及这个人的语音和设备的交互,我们主要的核心点就是围绕人,把这个技术做好。在这块再支撑巨大的分散的智能家居的需求。
第二个是技术,技术上的挑战,我们也是把他简化,因为人的交互方式和获取信息的方式其实是一个融合的方式,单独的语音和图象,或者单独的其他任何传感器,都不能涵盖所有的应用场景。所以一定是要图象+语音。另外图象中间,这个视觉的价值是高维的,80%的价值信息来自于图象,只有20%来自于语音,在技术上要完成对智能家居最好体验的布局,我们认为这个必须把图象和语音的技术融合,只是单独的做语音和图象是缺位的。
第三个,数据,要获取有价值的数据,怎么获取呢?这个本身是不容易做到的,我们的思路也是比较清晰,就是做嵌入式的人工智能,端+ 云的方式,端侧呢,大家可以看到,他在将来的人工智能的体系里面,扮演了一个非常重要的角色,现在我们谈到所谓的人工智能的创意也好,什么也好,包括很多大公司,他们其实更多的是在云端做但是端上有不可取代的价值,主要是三个方面,第一,端是不依赖于网络的,不管是在家里,还是哪里,大家会发现家里的无限网络覆盖很难做到完美,如果是在楼下,或者是在移动的场景中,这个网络的覆盖其实是非常有挑战的事情,特别是当你牵涉到一些智能图象处理的时候,你很难时时的把图象传到云端再处理回来,这个时候及时性没有了。
还有我们怎么样把有价值的数据传到云端,这个就要求在端上一定要有一个自己的审核,是一个有选择性的审核。比如我阳台上有一个洗衣服的篮子,我就只关注这个里面衣服满的时候,这个状态我传到云端。如果这个里面没有衣服,99%的时间,这些数据是毫无意义的,就抛弃了。必须采用一个端+云的方式,这样才有可能真正的做到最高效,而且是最有性价比的智能服务。
有了端上的智能以后,在云端可以做很多的事情,一个是可以搜集数据,持续的优化用户的体验另外是每一个硬件,将来都是和手机的形态一样,他在上面都可以下载很多的智能APP,这个硬件可能已经脱离了原来的形态了,你买回来的时候可能是一个家电,也可能是一个机器人,但是随着我们的升级,他可以变成任何一个东西。
当我们真的有了这个大数据,也对人的喜好了解以后,这个就不局限在家里了,当我们人在其他地方,到任何一个地方都可以把云端的功能使用起来。将来的智能家居市场一定是端+云的架构。
第四个,真正的用户体验,这个服务人是非常难的事情,我们现在服务的人工智能技术在宣传的过程中,过多的强调我们这个技术本身,比过去传统的技术好了很多,但是我们也要意识到,真正在这个过程当中要达到让人满意仍然是一个非常有挑战的过程。举个例子,语音,我们现在都会说我们语音可以支持远场和近场,也可以识别一些都口音的普通话,甚至是方言,但是我们在实际应用中,我们在家里面看到很多语音的设备,如果很多人同时讲话的时候,这个时候的识别率就会下降的比较厉害。
当我们考虑场景的时候,一定要让人非常自然的使用这个技术。图象也是一样,我们今天在家里面有很多人工智能的方案做人脸识别,如果你离的很近的时候确实识别的很好,但是如果离的比较远,如果是走动的状态下,如果是背光的情况下,怎么办?这些都要解决,只有这样用户体验才能真正好,才能真正的愿意使用这个技术,这个市场才能真正的起来。另外一个,我们这个技术更多的还要依赖于摄象头做到主动的服务,对这个用户要懂他,只有懂他才能使用户得到好的体验。
刚才总结了智能家居市场的一个现状和发展趋势,以及我们现在看到的四个挑战,场景非常分散,技术挑战很大,如何搜集有价值的数据以及最后如何做到真正好的用户体验,我们也介绍了一些地平线的思考和做的事情。总的来说,我们地平线的核心点就一句话,我们是做嵌入式的人工智能,我们认为这是最好的切入点。我们跟别的公司鲜明的区分也很简单,很多的人工智能公司是非常优秀和成功的,但是他们主要是依靠云端的技术,我们地平线的目标是希望让人工智能真正的分布到每一个端上,我现在在智能家居这个领域,我们围绕人,用最小的处理资源,比如说我们现在的技术可以在APP上做到我们介绍的所有的智能事情,以及将来我们很快的可以看到,包括很多公司,包括地平线研发的,基于生物学习的专用的处理器架构,用最小的资源做到真正的好的技术服务,给大家带来最好的用户体验。
地平线本身的定位,在这里也说一下,我们的定位其实是一个2B的公司,我们不会做2C的任何产品,我们地平线希望在嵌入式的设备上,有我们自己的IP,也可能有别人的IP在这个上面支撑更多的智能设备,有玩具、家电和摄象头,我们地平线还会提供一个智能系统支撑平台,这个平台之上我们希望支撑整个行业的各个合作伙伴以及我们的客户,由他们再 去针对各种各样的智能生活中的场景做各种各样好的服务和应用。最后,带给消费者最方便、最快捷、最舒适的用户体验,达到所有人的共同目标。