卧薪尝胆四年 这家公司为AI机器打造超级视觉

车东西(公众号:chedognxi)
文 | Origin

去年以来,人工智能从技术走向应用,从云端走向终端。随之而来的是各类公司对各个应用场景的挖掘。为了满足人工智能终端设备对计算的需求,人工智能芯片趁势兴起。

当前,人工智能主流的应用仍是围绕图像做文章,尤其对于自动驾驶,通过摄像头看懂、看清周围环境的能力异常重要。但图像质量恰恰是其中的一个痛点——现有的摄像头对光线环境的适应力太差,远不如人眼,输出的低质量图像数据严重制约了AI算法的能力发挥。

但在四年之前,就有一家公司成立,力图解决这个问题。日前,智东西造访眼擎科技,与GTIC 2018重磅嘉宾——眼擎科技创始人兼CEO朱继志进行深度对话,了解了这家公司4年来在技术上的修行,以及其成像引擎将对AI应用所起到的价值。

一、技术研发:耗时四年打磨 目标超越人眼

北大电子系毕业的朱继志在成立眼擎科技之前,先任职于中兴视讯通讯部。在这段为期十年的工作经历中,朱继志负责视频图像的技术开发工作以及技术的产品化,对技术与产品的双重经验让他成为了图像处理这个行业的老江湖。

后来,朱继志又投身芯片行业,做到了国内最大芯片分销商副总裁,在8年的时间里对接手机、家电、汽车等对芯片有大量需求的行业,也摸透了芯片的产品开发逻辑与下游行业的不同需求。

这两段经验日后被捏合,成就了现在的眼擎科技。

2014年,对图像处理行业仍保持高度关注的朱继志看到了一个机会——人们日常生活中的相机实在是太过孱弱:逆光、暗光、强光、多光源,任意一种复杂光线情况,都会让相机输出的图片不忍直视,不是暗部一团黑就是亮部一片白,再加上各种颜色失真、噪点爆表,与人眼所见相去甚远。而在数码摄影诞生的数十年里,尽管成像的关键元器件——CMOS图像传感器(此前也流行CCD,但已退出主流市场)一直保持着迭代,但直到今天,这些问题都没有得到有效解决。

当年,朱继志主导成立了眼擎科技,英文取名“eyemore”,意在使其产品的成像能力对标乃至赶超人眼。

朱继志认为,现有的成像系统对光线适应能力差与产业链上游的日系厂商主导的全局成像路径有很大的关系。而朱继志对此的解法是——分区域、分层成像,即将成像对象分解为大量的小格子,用自研的成像算法对每个格子中的数字信号进行分别计算,使得每个小格子中的图像都输出最好的成像效果。

原理听上去不难理解,公司成立的第一年,朱继志带领团队打造了一个原型,经过验证,技术可行。当年,眼擎拿到了来自柔宇科技投资人杨向阳的天使投资。

但事情远没有那么简单。成像算法是一个牵一发而动全身的事情,或许只是为了调整了一个暗部的亮度,整张图片的亮度就同时生变。要使成像算法能够应对各种光线条件,就需要针对一个个场景进行具体的调参。比如自动驾驶车进隧道时,光源会从自然光瞬间变成人造光,光线强度也会经历强—弱—中这样的快速变动,此时摄像头稳定输出明亮、清晰图像的能力将大受挑战。

要应对这种情况,只能去隧道实地测试,一遍遍地优化应对这种场景的算法。而不同的场景,还有很多, 这件事花了眼擎团队三年。

同时,为了更复杂成像架构带来的巨大运算需求,眼擎还打造了一个独立ISP(Image Signal Processor,图像信号处理器),来承载眼擎自研的算法。

二、产品落地:芯片承载成像引擎 为AI机器打造视觉器官

到2017年,眼擎的成像方案初步成熟,接下来该进入产品化的阶段。

在进行技术开发的几年中,眼擎曾面向消费者市场推出过Demo类的产品进行探索。但朱继志很快发现普通消费者对成像效果的喜好似乎是个玄学——人们根据不同的需求,对图像质量的评判各有一套主观的标准。或许某些人希望自己能被拍得更白,某些人则希望图像里的色彩更艳。眼擎准确输出图像中各种物体色彩、纹理、材质细节的能力,在这种情况下并没有形成优势。

不过这几年暴涨的机器视觉市场为眼擎提供了更大的机会。无论是手机上的人脸识别、还是安防、或是自动驾驶,对运行人工智能算法的机器来说,它们需要的都是客观、准确、清晰的图像数据,这正是眼擎的强项。

找准To B的市场,眼擎的产品应运而生——eyemore X42成像芯片。这块ISP成像芯片凝聚了眼擎创业四年的成果,针对超过500种不同场景封装了二十余种智能成像算法。同时,由于采用独立ISP的形式,其单像素的计算能力比封装在SoC上的集成ISP提升了20倍。这块芯片有着推动机器视觉再向前一步的力量,而朱继志也喜欢把它称为成像引擎。

卧薪尝胆四年 这家公司为AI机器打造超级视觉

这些参数的背后,是它面对复杂光线实打实的高素质成像能力。在智东西实际体验的弱光成像演示中,搭载了眼擎成像引擎方案的摄像头在室内只有一台电脑显示屏作为光源的条件下,呈现出了明亮、清晰、色彩还原度相当高的图像,而手机在这种场景中为了拍出明亮的电脑显示屏,已经完全放弃了暗部的成像。而人眼在这样的照度下,也早已无法分辨物体的色彩。

卧薪尝胆四年 这家公司为AI机器打造超级视觉

上图为暗光环境下eyemore成像效果

卧薪尝胆四年 这家公司为AI机器打造超级视觉

在不依靠红外光等主动照明的情况下,眼擎的的确确实现了弱光环境下对人眼的超越。在朱继志看来,这非常关键。

他很认同马斯克在自动驾驶上的一个看法——“激光雷达是自动驾驶的拐杖。”朱继志认为激光雷达之所以在自动驾驶中如此受欢迎,正是摄像头的被动光学成像没有将潜力发挥到极致,才需要激光雷达这样的主动光学成像系统。但一旦摄像头能在更复杂的情况下看得比人清楚、比人看到更多的色彩,那么人工智能会有更加优质的图像数据可用,能够进一步发挥其在识别物体、感知环境上的能力。

毕竟,人类依靠双眼已经能够很好地完成驾驶任务。比人眼更加优秀的成像系统,不仅将使自动驾驶变得更加容易,也能够运用在其他场景中。

不过,朱继志认为这还不够。因为人眼拥有的超强视觉能力,并不只在于拥有多么优秀的光学系统,更重要的是,它通过神经与大脑无时不刻地进行着交互,通过聚焦的形式屏蔽不重要的信息,将注意力放在真正关键的视觉区域和物体上。

要达到真正的智能,处在成像步骤前端的眼擎,需要和后端的AI进行交互,了解AI真正需要什么。于是,眼擎的团队又为成像引擎设计了一套与后端AI算法的交互架构,来获知AI对图像的需求。在必要的时候,这套设计可以像人眼的聚焦一样,将计算资源集中起来,对AI关心的某一帧图像或者图像中的某个区域进行更高质量的成像。

朱继志称,这种与AI系统的交互能力,将使得成像系统真正成为AI的有机器官。

三、商业定位:做技术方案商 已找到四大应用场景

在eyemore X42成像芯片的量产提上日后后,2018年,眼擎的工作重点开始变为将技术运用到各类终端产品。

这时候,朱继志在芯片行业的经验开始进一步发挥作用。目前,眼擎为其技术先确立了六大应用场景:自动驾驶(汽车)、手机、安防、工业检测、机器人、无人零售。这其中大部分,都是朱继志曾经接触过的下游。

在商业模式上,朱继志想得很清楚,这些行业都有不低的进入门槛,有些早已巨头林立,因此眼擎选择的方式是赋能——定位上游的技术方案商,向下游打造终端产品的公司输出自己的成像能力。

卧薪尝胆四年 这家公司为AI机器打造超级视觉

为了让成像引擎这个新生儿更好地被合作伙伴们验证、接受,在eyemore X42这枚ASIC芯片量产之前,眼擎就用FPGA打造了开发工具套件,供下游公司试用,也借此收集反馈意见。

到eyemore X42量产时,眼擎又提供不同能力的API接口,降低下游的开发难度。

目前,眼擎已经与电商行业的公司合作,打造出了一款智能3D扫描仪。在这台单目的深度相机上,眼擎提供了单次曝光同时呈现亮部、暗部细节,以及准确输出商品色彩、纹理的能力。

今年,眼擎正在和超过20家来自不同行业的公司合作,让eyemore X42成像芯片进入各类终端产品中。在自动驾驶这个场景,眼擎的合作伙伴不乏自动驾驶的头部明星公司。今年五月,眼擎将针对这一市场推出超宽动态辅助驾驶视觉成像方案,视觉动态范围超过100dB,并且满足车规要求。

卧薪尝胆四年 这家公司为AI机器打造超级视觉

而面向不同行业的具体需求(比如汽车行业的芯片需要过车规),眼擎也将采取IP授权的形式,让相关行业的公司来对芯片进行针对性的开发、生产。

结语:从底层抢占人工智能时代的视觉入口

在近两年的人工智能发展高潮中,以后端为主的人工智能算法公司层出不穷,并率先获得广泛关注。AI视觉算法公司,在其中占据了大头。

而随着AI的概念逐渐明晰、产业进一步发展,人工智能越来越快地走向落地、走向普通人的日常生活、从云端走向终端。这时候,承载软件算法的计算硬件重要性凸显出来。

而回过头看,由于硬件的高门槛,有勇气踏入这个方向并耐得住数年寂寞研发技术的公司并不多。

从底层入手,花四年打磨技术的眼擎,已经在产业链中占住了一个空当,分食越来越大的AI视觉蛋糕。

卧薪尝胆四年 这家公司为AI机器打造超级视觉