人工智能算法探秘:地平线技术三剑客解读

智东西推荐语:

地平线机器人公司是前百度深度学习研究院(IDL)常务副院长余凯博士的创业项目,目前专攻汽车汽车、机器人智能领域。

人工智能被认为将是横切360行的新技术革命中间力量,但似乎还是很抽象。余凯博士麾下,地平线机器人公司有一批技术牛人;透过三位技术大牛对AI算法的解读,可以一窥人工智能到底是神马,以及这些研究者是通过哪些算法来实现智能化的。

本文已授权智东西发布:

黄畅做真正能解决实际问题的算法 

人工智能算法探秘:地平线技术三剑客解读

黄畅博士,地平线机器人技术( Horizon Robotics )联合创始人&算法副总裁。本科、硕士以及博士毕业于清华大学计算机科学与技术系,曾经在美国南加州大学和 NEC 美国研究院担任研究员。2012年加入百度美国研发中心,2013年参与组建百度深度学习研究院( IDL ),任高级科学家、主任研发架构师。长期从事计算机视觉、机器学习、模式识别和信息检索方面的研究,作为相关学术界和工业界的知名专家,发表的论文被引用超过3350次,拥有多项国际专利。他开发的人脸检测技术,创造了世界上首次计算机视觉技术被大规模应用的成功范例,占领80%数码相机市场,并且被苹果 iPhoto 等诸多图像管理软件所采用。他带领百度 IDL 图像技术团队负责公司内各种图像核心技术的研发,推出了全网人脸图像搜索、PK大咖、全网相似图像搜索、自然场景文字识别、百度移动图像搜索、图片凤巢等重要产品。在校期间获得2006年度微软学者奖学金,2007年清华大学优秀博士毕业论文、2007年北京市优秀博士毕业论文等荣誉,“可视媒体几何计算的理论与方法”项目获得2012年高等学校科学研究优秀成果奖一等奖,参与国家973计划项目“面向三元空间的互联网中文信息处理理论与方法”。

初识人工智能应用研究

黄畅参加的第一个学术项目,就和解决实际问题相关。

大三那年,人工智能还处在一个低谷中。但一个偶然的机会,让黄畅跟随恩师艾海舟一起,加入到清华与日本欧姆龙公司的技术合作项目,研究图像识别领域中非常重要的人脸检测问题。当时的他还不知道,后来的研究成果成为了早期计算机视觉技术被大规模商业应用的成功范例,诞生了世界上第一款人脸检测专用芯片。

时至今日,这项技术以“芯片+软件”的模式已广泛服务于生活中的各个角落,从数码相机、智能手机,再到诸如苹果iphoto这样的软件系统,占据了大量的市场份额。

这项技术实现了我们如今随处可见的镜头自动人脸对焦和曝光肤色的智能调整功能,完全改变了自相机诞生以来的人物拍照方式。

当时,人工智能方面的大多数技术还很难在工业界找到适合的发展方向,因为技术还不成熟,大多数都还停留在实验室阶段。甚至到黄畅博士毕业的时候,人工智能行业形成规模仍然是遥遥无期。很多从业者都觉得这行“不靠谱”,纷纷转到互联网或者金融行业了。

而那次项目的成功,则代表着人工智能在实际应用中迈出的重要一步。这个成功的范例向世人证明了人工智能在应用方面可开发的巨大潜力,让人工智能开始受到相关人士的重视,并得到越来越多的投入。对黄畅个人而言,也让他对人工智能未来的乐观态度更加坚定,并一路走下去。

十年轮回,持续深耕

此后十年,黄畅用了比别人更少的时间读完硕博,并受邀去美国南加州大学跟随Prof. Ramakant Nevatia读了两年博士后,随后加入地处硅谷的NEC美国研究院。这段工作里黄畅收获了两个“生命之重”——真正以工业界的视角对人工智能进行深入思考研究,以及结识了亦师亦友的余凯。

回国后他加入百度IDL,带出一支优秀的图像技术团队,做出了全网人脸图像搜索、PK大咖、全网相似图像搜索、自然场景文字识别、百度移动图像搜索、图片凤巢等重要产品。鉴于这些优秀的工作成果,他和他的团队获得了百万美金的“百度最高奖”。而在实际应用中,这些产品也展现出了巨大“威力”,比如图片凤巢的技术成果,就使百度的广告收入提高了5%-6%。

2007年他离开清华前夕,和其他同学谈论未来行业发展趋势时,曾说过,“这个行业在5-10年的时间里一定能取得重大突破、得到广泛应用。”这句预言也在今天得到了很好的印证——从2012年开始,以深度学习为代表的一大批人工智能得以复兴,甚至这一年被称为“人工智能普及年”。

深度学习中,被大规模用于图像识别的卷积神经网络
2015年,他加入地平线后,又做起了“算法+芯片”方面的研究工作。只不过十年的经历和思考,让他对 “算法+芯片”有了前所未有的深刻思考和清晰认识。

算法要用来解决实际问题

在加入地平线时,黄畅就已经形成了一套自己的AI算法研究价值观,那就是:算法是用来解决实际问题的,它是工具,而非目的。这也是整个地平线算法团队所坚持的理念,故而在很多公司很多团队还在算法数据集里争着“刷第一”时,地平线的算法研究方向已经在奔向下一个目标了。

具体来说,他认为,如果想让算法能真正的解决实际问题,在考虑算法之前,必须对这些复杂的实际问题进行正确的建模(formulation),选择甚至定制合适的系统(system),基于大量数据(data)驱动,结合模型(model)和知识(knowledge)的表达来解决这一实际问题。脱离开这条轴线,我们做的算法将不具有现实意义。

现在许多人讨论算法,往往忽视了要解决的问题的本质,没有正确的抽象和建模,也缺乏一个坚实的系统去承载并做可持续的积累。这样过于强调算法自身的结果,通常会形成过分简化的建模(即采用单一的算法和系统,去解决实际上非常复杂的问题),结果导致算法难有实质性的突破,更无法应用于真正的产品中。

譬如说,在自动驾驶领域,有些公司号称在使用深度学习做端到端的训练,直接学习从传感器的输入到控制器(刹车、油门、转向等)的输出的函数映射。我们无法对这种黑盒模型进行有效的分析,在使用中出了故障很难搞清楚究竟是什么原因造成的。而自动驾驶是一个对可靠性要求极高的领域,需要考虑许多长尾条件下的corner cases。这种建模方式没有对自动驾驶这个问题做出正确的形式化描述,而在此基础上构建系统并研究算法,效率十分低下甚至是徒劳无功。

基于这些思考,在黄畅带领下,地平线算法团队在许多重要的算法研究方向上持续努力尝试,包括向基于贝叶斯网络的推理系统和面向感知-决策-控制的增强学习系统等,努力把地平线的算法技术水平推向一个新台阶。

基于深度神经网络增强学习的理性决策

除此之外,在全智能万物互联的时代背景下,人工智能技术越来越多的从云走向端,诞生了“端上AI”这个巨大的市场。这也意味着在地平线的算法研究中,还要增加一个新的思考维度——和芯片更好地结合,实现高精度、高效率、高吞吐量、低功耗、低成本的特点,以此代替原来动辄成本上千美元,能耗几百瓦的GPU架构。依靠算法、硬件等团队的努力,地平线已奠定了嵌入式人工智能全球领导者的地位。

罗恒忽视Trick,将难以解决实际问题

人工智能算法探秘:地平线技术三剑客解读

罗恒,地平线机器人技术资深算法研究员,负责深度学习模型压缩与加速。2011年博士毕业于上海交通大学,后随Yoshua Bengio从事博士后研究,2014年加入百度深度学习实验室,参与深度学习在搜索中应用、PaddlePaddle研发等工作。2016年8月加入地平线机器人公司。

罗恒有些微胖时常自嘲要减肥”,藏在方框眼镜之后的一双眼睛睿智有神。

作为一名算法工程师他的生活常常处于高速的脑力运转之中这让他的每一秒时间都显得宝贵走路疾步带风。

2011罗恒在上海交通大学博士毕业后跟随Yoshua Bengio从事博士后研究。回忆起自己走上深度学习的历程罗恒抚了抚眼镜,“那是段很有趣的经历”,似是做好了讲故事的准备。

师从AI大师Yoshua Bengio

研究生时计算机专业的罗恒偶然了解到机器学习的知识惊觉十分有趣由此开始持续关注机器学习方面的学术动态。博士期间罗恒看到了Yoshua Bengio教授关于深度学习的技术报告尽管当时还不太懂深度学习但罗恒依然强烈地感受到这可能机器学习接下来最大的突破。

Vapnik的书觉得我自己没赶上这波研究热潮),我就想下一波是什么当时就觉得深度学习应该是下一波学术上的热潮我就这样开始走上深度学习的研究之路。

罗恒的博士后导师:Yoshua Bengio

Yoshua Bengio教授是蒙特利尔学习算法研究所主任,CIFAR计划CIFAR神经计算和自适应感知计划联席主任加拿大统计学习算法研究主席Geoffrey Hinton Yann LeCun并称为当今人工智能三巨头”,他们一同缔造了2006年开始的深度学习复兴实现了人工智能的第三次研究热潮。他带领一批研究生和博士后开展机器学习在整个学术领域有着极大影响力(Google Scholar2016年中期发现超过40000篇引文,H指数为84)

同时YoshuaBengio也在不断指挥他的团队去研究深度学习语言包括近来取得令人激动的成就的神经机器翻译系统比如最新版谷歌翻译其翻译水平甚至可以和专业的人工翻译媲美。

那时候这位AI大师刚好在招收博士后虽然罗恒只发表了两篇论文但这两篇文章却受到了Yoshua Bengio的极大认可在和罗恒面谈之后,Yoshua Bengio将他收入自己门下。就这样罗恒飞往加拿大开始攻读深度学习博士后踏上了研究深度学习的学术旅程。

压缩和加速模型实现嵌入式AI

当罗恒学成归国已是2014年。回国后他发现工业界已经开始有深度学习研究了,“研究工作能够开始实用这是很难得的我发现自己不但赶上了研究上的一波热潮还赶上了实用的一波的热潮。正好那时候余凯老师在百度创办IDL,于是我就选择了加入。

加入百度IDL,罗恒和他的团队主要在做的事是如何把深度学习用在搜索排序上。但是他发现近年来为了隐私、安全、避免对网络的依赖越来越多的深度学习算法模型开始在端上运行这对模型的大小、速度、能耗、性能都提出了现实的要求。罗恒逐渐感觉到深度学习下一波发展是从云走向端使得各种智能模型在我们的身边唾手可得。于是,2016年他加入了余凯创办的地平线专攻神经网络模型的压缩和加速。

地平线要做的是高性能低功耗的IP开发提供端到端、软硬结合的人工智能结合方案推进嵌入式人工智能产业生态链的搭建。在这个过程中算法的模型压缩和加速是技术实现的必要一环。

乐为人师重视Trick素养

在地平线大家都称罗恒为罗老师”,这或许也是受到他的恩师Yoshua Bengio的影响。Yoshua Bengio是人工智能三巨头当中唯一一个依然坚持在学术岗位的深度学习大师他全身心投入在学术界进行纯粹的学术研究带头培养成千上万个科学家和工程师们。

罗恒从恩师那里传承了为人师表的精神除了致力于应用研究他对于人才培养也十分看重尤其注重他们Trick素养的提高。

刚开始进入人工智能行业的同学往往觉得研究无从下手虽然有很多理论的文章但似乎对实际用处不大常常感到迷惑。和其他人埋头理论不一样罗恒擅长带着他们转换思路Trick入手利用这些Trick,更好地带领新人解决实际问题比如利用训练好的神经网络对数据做采样更快发现数据中的问题。

机器学习的很多研究都是从理论出发但实际上这样很难去描述一些现实的问题。而trick是一种实用主义的方法这从研究的角度看上去可能显得不那么优雅但在很多实际问题上忽视trick都是不明智的。”Trick对于所有人来说都是一种解决实际问题的好方法对于刚入行的同学来说更是如此。

招纳新人学术应用两手抓

在人工智能研究的大潮中算法人才从来都是紧缺资源罗恒一直期盼着有志同道合的人能够成为自己的伙伴而他也会像自己的老师一样带领着新生力量投入到深度学习的研究当中。

这次的绝地武士实习生计划模型的压缩和加速方向招收3名实习生罗恒是mentor。他感到这是一种奇妙的转换在六个月的时间里他将带领实习生们共同追求学术上和应用上的目标。实习生来到这里和我们一起写代码做实验验证各种想法有比较好的结果就写论文同一个课题下我们也会带领实习生尝试多种解决方法在试错中获得进步。

罗恒一直在等待着。

黄李超让算法成为一种生活方式

人工智能算法探秘:地平线技术三剑客解读

黄李超,地平线核心算法工程师。毕业于英国帝国理工。回国后任职于百度深度学习研究院,工作内容涵盖物体检测、姿态及关键点定位等尖端核心技术,实习期间就独立开发出基于全卷积网络的物体检测算法DenseBox,一举成为百度IDL核心算法,奠定其在算法领域中的领先地位。该算法针对中国特有的复杂路况,让单目摄像头也能做到精确的环境感知。在与参加评测的其他机构如三星研究院、NVIDIA、UCSD、斯坦福、中科院等竞争中,黄李超开发的DenseBox脱颖而出,获权威数据集FDDB、KITTI榜首。在检测的速度和准确率上,大大超越了同类算法中的佼佼者如YOLO 、SSD和faster-R-CNN。2015年9月加入地平线后,黄李超负责过两大方向。一是算法研发与优化,包括负责训练各种模型,如人脸检测模型、人脸属性和关键点定位模型、以及ADAS方向的车辆和行人检测模型;二是平台搭建与优化,即训练算法平台的开发以及CNN预测库的性能优化。目前在地平线主要负责物体检测和图像分割方向。

探索物体检测前沿算法

工程师对自己设计的算法总是怀有某种特殊的情感正如Alphago之父哈萨比斯在Alphago战胜围棋高手李世石时兴奋不已一样谈及在物体检测领域颇有名气的DenseBox算法的开发黄李超似乎也有说不完的想法和故事。

设计DenseBox最初的目的是用深度学习做物体检测。虽然深度学习在2013年左右就被应用于物体检测领域但其代表性的算法架构却一直不够直接和高效。早期基于CNN的物体检测方法OverFeat,虽然有着很好的设计但由于性能和效率问题一直没有得到很好的应用。虽然后来Ross Girshick等人开发了R-CNN算法在一些数据集上有更好的表现但它的缺点也显而易见的——region-proposal通常会很多直接用CNN分类的话非常耗时同时,R-CNN训练需要多个步骤不够直接。

在大家仍选择沿用R-CNN方法亦步亦趋时候,2014年冬天还在百度IDL实习的黄李超决定开发一套新的物体检测算法。更早的OverFeat这个工作给了他启发既然在图像上卷积等价于使用滑动窗口分类为什么不直接使用全卷积网络做整图的物体检测呢因此他基于自己的理解设计出一套端对端的多任务全卷积模型直接回归物体出现的置信度以及它的相对位置。同时为了能够更好地处理遮挡严重的物体提高小物体的召回率他还率先在检测的网络中引入了上采样层并融合浅层网络得到的特征得到更大尺寸的输出层。为了对训练样本进行筛选降低误检他还率先使用了Online Hard Negative Mining的策略这在后来的一些论文中被证实是很有效的。

目标检测示意图输入多尺度图像经过CNN处理输出目标框  引自:DenseBox: Unifying Landmark Localization with End to End Object Detection

后来他还对DenseBox进行了一次关键性的优化让原来的检测网络引出多个分支大大降低了图像金字塔的规模。这一优化使得在相同计算量的模型下原本在GPU上耗时数秒的720P图像的人脸检测不到一秒即可完成。如果用更小的模型CPU也可以做到每秒好几帧的速度。这一改变成为推动DenseBox落地的临门一脚”,让它真正在产品线上能够可用。

DenseBox最先应用在人脸检测上表现出了很好的性能后来开始逐步应用于车辆检测等方向。而优化后的DenseBox更是被广泛应用到IDL的相关项目组如人脸和OCR(光学字符识别项目极大提高了检测的准确率至今仍是百度无人车的重要算法之一。加入地平线后,DenseBox在各个平台上衍生出了多种不同性能和速度的模型也成为了地平线的核心算法。

除了物体检测算法的研发黄李超来到地平线之后在工程方面也做出了建设性的成绩。他在一个月内独立搭建了一个跨平台的轻量级CNN预测库,性能达到开源深度学习平台Caffe的两倍。同时在ARM平台上进行的定制性优化Caffe速度提升了2-6倍。同时地平线初期落地的所有模型包括人脸检测模型、人脸属性和关键点定位模型、以及ADAS方向的车辆和行人检测模型也都由他一手训练。今年在地平线嵌入式人工智能战略的关键一环中黄李超作为核心成员参与了地平线第一款芯片CNN模块的设计和算法验证。

纵观黄李超在人工智能领域的探索历程,DenseBox开发、FDDB/KITTI榜首、深度学习预测库、业界顶尖、地平线芯片这些似乎都可以成为他身上亮闪闪的标签却都无法简单地定义这个一直活跃在物体检测领域前沿的探索者因为这个眼睛里散发着光芒的人有太多的想法和探索的能量因而无法简单地用词汇定义。

科技剑客随性与执着

采访黄李超最大的感触就是他的随和与坦然讲起自己的经历他时常低头一笑又闲闲道来。他也坦言自己的随性当年DenseBox虽在2015年初就被早早地开发出来这一成果比同一时期的Fast(er)-R-CNN系列提前数月但相关的论文直到9月才在arxiv上发布究其原因竟是他懒于动笔

当时懒得写就没有写直到不得不写了才写了一篇。虽然DenseBox落地之始就在权威检测数据集FDDBKITTI中排列榜首这一荣誉一直是国内多家公司如百度、小米等争相炫耀的筹码但黄李超却显然并不想多谈。这不过是个测试性能的数据集而已证明算法性能好就够了盲目的刷榜并没有意义。

DenseBoxKITTI上名列榜首性能远超faster-RCNNRegrionlets

但是他的随性仅仅适用于他的人生观他对工作的热情恰恰相反是相当执着的。在开发DenseBox的时候同期几乎没有可以参考借鉴的工作因而所有的内容和算法都需要根据自己的直觉去判断,“需要不断的尝试如果效果不好就要分析它的原因。只要认定了这个方法可行就绝对不能放弃。正是他的坚持让DenseBox在检测算法领域立稳了脚跟通过不断的更新和改进它仍傲踞地平线的核心算法之首。

他的随性和执着构成了他剑客般的性格对人生随性而坦然对技艺执着又精益求精。在科技的时代他就是挥舞锋芒、披荆斩棘的剑客。

算法应当是一种生活方式

未来的目标嘛我希望做出更好的算法也让自己的算法能够在更大的平台上使用让自己的成果惠及更多的人。谈及未来的愿景黄李超如是说。最近二十年来我们分别经历了PC互联网、移动互联网的热潮如今这些热潮已接近尾声而下一次热潮已紧随而来——人工智能。随着万物互联时代的到来端上的人工智能将带来巨大的市场机会。尤其是在自动驾驶和智能家居领域存在于每一个智能设备里的AI芯片会是重中之重。

在万物互联的人工智能时代生活将与算法密不可分

而算法在其中扮演的角色就是和芯片完美结合提供软硬结合的嵌入式人工智能解决方案也以此获得重生和更广阔的应用。好的算法可以为我们的生活带来诸多便利也预示着算法将在不久的未来潜移默化地成为我们的一种生活方式。