这8组大学生的AI说唱以假乱真、OCR准确率超百度腾讯

智东西(公众号:zhidxcom)
文 | 心缘

智东西8月24日消息,昨日,2018中国高校学生AI训练营项目(DeeCamp)展示暨结业仪式在北京大学举行,该项目由教育部中外人文交流中心、创新工场AI工程院和北京大学联合主办。在结业仪式上,8支获奖小组分别作了项目展示,包括AI评美图、AI说唱、自动驾驶等。

在结业仪式后,智东西同少数媒体采访了教育部中外人文交流中心副主任杨晓春和创新工场AI工程院执行院长王咏刚,就我国AI人才的现状、如何培养尖端AI人才、AI公司的商业化落地等问题进行深入交流。

一、DeeCamp AI训练营

该训练营是国内首个高校AI人才培养计划——2018年“中国高校AI人才国际培养计划”的实施项目之一,由创新工场于去年发起,另一项目为“高校教师AI培训班”。训练营吸引了全球600多高校近7000多名中国学生报名,在经过笔试、面试层层筛选后,来自85所国内外高校的300名学生被录取参加1周集中授课+4周动手实践。其中,本科、硕士、博士占据的比例分别为54%、39%和7%。

此次高校AI国际人才培养计划为公益性质,老师和学生的培训课程都完全免费。图灵奖获得者John E.hopcroft、深度学习专家吴恩达等6家国际顶尖高校的10位AI专家和创新工场、旷视、科大讯飞、谷歌等AI技术企业的AI专家分别担任学术导师和产业导师,指导学生分为28个小组完成15个实践课题,最后从中选出8支优胜队伍。他们做的课题有机械臂3D视觉系统、3D人体骨架点检测、多摄像头行人轨迹和行人动作分析、AI自动作词作曲、AI电影推荐、AI打即时战略游戏、农作物病虫害检测等。

在结业仪式上,获奖的8支团队进行了汇报展示。教育部国际合作与交流司副司长徐永吉、北京大学常务副校长高松院士、教育部中外人文交流中心副主任杨晓春、创新工场CEO李开复以及AI工程院执行院长王咏刚等有关单位的领导和专家为学员颁发结业证书。

这8组大学生的AI说唱以假乱真、OCR准确率超百度腾讯

二、AI也懂美:评价美丑,为诗配图

在8个获奖团队中,有两个团队的作品都和美学相关,一个是让AI评价美图,另一个是让AI生产美图。

1、给图像的美丑评个分

在结业仪式上,首先颁发的是DeeCamp精神奖,获奖小组是美图指导的图像美学评价小组,他们做的项目是让AI像人类一样判断图片的美丑。该小组做了一个好玩的微信小程序,只要上传一张照片,就会获得该图的评分和评语。

这8组大学生的AI说唱以假乱真、OCR准确率超百度腾讯

由于不同时代不同族群对美学都有不同定义,如果AI能够公正地评判某个摄影作品的基本审美高度,就能为观众提供一个客观的第三方价值参考。目前该领域最前沿的一篇论文是今年4月谷歌提出的NIMA模型,这篇论文的平均值预测比较准确,但分布预测不够准确。

为了使图片评价的分布更接近观众审美,该小组使用包含约25万张图片的AVA数据集和近14000万张图片的ImageNet数据集,采用端到端模型,利用深度神经网络自动学习与图像美学评价相关特征,并考虑到参与投票人数对打分结果的影响,设计了一种新的的基于统计概率加权的EMD Loss。他们模型的评分均值预测和谷歌论文的NIMA达到了同量级效果。

最后,该小组分享了几个AI美学评价的应用前景,其中一个很有商业价值的就是和摄像机结合,自动采集有美感的照片或自动生成有美感的海报。

2、从诗词生成有风格的图片

DeeCamp最佳方案奖由知乎指导的基于文本语义的图片生成小组收入囊中。古诗词是文化自信的重要载体,如果有个工具将诗词中的意象和情感相结合,将大大降低理解诗歌的门槛。该小组做的就是基于诗歌意象和情感理解、意象图片内容的生成,和对图片进行情感着色并进行水墨风格迁移。

这8组大学生的AI说唱以假乱真、OCR准确率超百度腾讯

在文本方面,该小组搜集5万多首唐诗,使用规则匹配和CNN提取意象,准确率达91%;在情感判别方面,他们人工标注了2276多首诗歌的正负向情感,使用Word2Vec字向量分析和情感字典自动标注数据,以“句子”为单位进行情感判别,正确率达80.1%。为了实现情感着色,他们人工搜集了基于荷、草、柳、梅、沙漠、山、云、燕8个意象的2500张单意象图片和2000张多意象图片,使用WGAN-GP和改进的ACGAN等模型实现情感着色和风格迁移。

该项目有几个商业展望,一个是面向孩子和外国友人的教育APP“看图识古诗”,另一个是基于古诗词的意象和情感判断后生成对应场景和风格的配图。

三、AI玩文字:干扰环境认糊图,高能聊天唱Rap

文字是不同于图像的另一种描述世界的方式,下面三个项目都是用AI实现文字和语言方面的应用。

1、比百度、腾讯更强大的OCR

获得最佳工程奖的小组由美团公司指导,做的是环境不可控场景下拍摄文档地址文字识别(OCR)。文字识别往往面临拍摄环境不可控和地址字段识别的挑战,比如拍照拍糊了、闪光灯干扰、中英文数字混合、多行紧凑文字等情况都会影响识别结果。

这8组大学生的AI说唱以假乱真、OCR准确率超百度腾讯

据小组负责人表示,该小组在短短一个月的时间,从不知道什么是OCR,到实现高识别率的OCR功能。他们使用DenseNet进行图像特征提取,用短文本分类TextGrocery进行地址判断,在剔除干扰和模糊匹配和校正后,其OCR识别率超过了腾讯和百度。他们将实现的功能集成在小程序中。该小组也总结了这一项目的未来改进方向,包括地址矫正、更多数据、优化模型、压缩参数等。

2、能斗图的陪聊机器人

最佳技术奖的获得者是知乎公司指导的刘看山陪聊机器人小组。他们所做的机器人高效实现了一流聊天机器人必备的几乎所有核心技术环节,不仅可以回复文字,还能像人一样回复图片和表情包。大家又多了一个可以愉快调戏的AI机器人。

这8组大学生的AI说唱以假乱真、OCR准确率超百度腾讯

该小组使用来自知乎、小黄鸡、微博、豆瓣的1000多万语料,在经过敏感词筛选后,他们使用Seq2Seq文本生成算法和北大孙老师在18年2月提出的DPGAN模型,将基于文本的模块、基于检索的模块和基于生成式的模块结合,做了相似度匹配。其匹配方式都在GPU上进行,匹配速度非常快。

3、AI也能写歌词唱Rap

拿到最佳Demo奖的是由创新工场创新奇智指导的AI有嘻哈小组,他们所做的AWLyrics能够2分钟植出一首嘻哈歌曲。使用者选择一个主题,输入一个起始句,其项目就能生成押韵的嘻哈文字,还能进行语音合成,让机器唱嘻哈。

这8组大学生的AI说唱以假乱真、OCR准确率超百度腾讯

该小组对SeqGAN模型做出改进,增加输入语句的编码,并将原先生成器的损失函数改成Penalty-based Objective。在押韵功能上,他们尝试了Reward-based和Rule-based两种方案。其负责人表示,这个项目的未来工作还有很多,比如根据Beat自动创作嘻哈歌曲、应用于诗歌、平仄和押韵等各类文本生成,以及应用于图像捕捉,即用编码器对图片编码后交给生成器等。

四、AI擅追踪:识别用户行为,“迷你”自动驾驶

最后这三个项目则出色地整合了技术架构,展现了学生们全面均衡的实践能力,

1、追踪原麦山丘的人流

由创新工场创新奇智指导的人流动线追踪小组获得了最佳团队奖。他们从新零售的场景和需求出发,希望通过人流动线追踪技术精确识别用户行为。其试验场景选在原麦山丘新奥店,该小组使用三路摄像头进行基于热力图的人流检测和追踪。他们还通过摄像头标定将数据可视化,展示年龄分布、性别分布等视频数据的统计结果。

这8组大学生的AI说唱以假乱真、OCR准确率超百度腾讯

课题实现的难点主要由货架遮挡、视角、光线和相似着装。针对这些难点,小组用地板格替换黑白格标定摄像头,基于姿态估计检测,使用Deep SORT和ReID融合的技术进行轨迹处理和多帧检测结果匹配,标注位置和性别的先验信息进行辅助判断。

2、模拟完整无人驾驶体系

由景驰指导的基于分模块的自动驾驶小组摘得最佳应用奖。该小组展示了在虚拟环境下实现的无人驾驶模拟视频,其项目基于分模块架构,分成高精度地图与定位、感知、决策规划和控制四个模块。

这8组大学生的AI说唱以假乱真、OCR准确率超百度腾讯

其技术先进性在于,定位采用了基于SLAM定位和航迹推算的定位融合算法,决策规划使用了Dijkstra搜索的全局路径规划。在控制部分,小组使用了Pure Pursuit算法,结果偏差比较小。该小组表示,目前他们已有能适应多车道变道超车的超车导航点生成算法,能够基于复杂环境进行实时动态导航。

3、“迷你版”自动驾驶小车

2018 DeeCamp之星奖压轴揭晓,获奖者是由景驰指导的自动驾驶小组,他们使用监督性端到端训练,做出了“迷你版”自动驾驶车Devil Car。在使用了Carla仿真器模拟自动驾驶功能后,他们将功能与硬件结合,首先使用4万张图的数据集进行训练,使小车能在楼道完成直行和转弯。随后,他们将小车的应用场景扩展到室外,通过训练7万张图的数据集,使小车能在1000米左右带有自然障碍物的校园环路上进行弯道行驶和障碍躲避。

这8组大学生的AI说唱以假乱真、OCR准确率超百度腾讯

在未来,这个项目能实现的功能可以扩展到无人喷洒车、无人道路清洁车、北大校园导游车等无人车,可在无人汽车中嵌入端到端局部控制,还能助力语义分割、障碍物检测等领域,降低标注成本。

五、对AI学生的建议和希望

李开复表示给出做科研的几点建议,一是要具备坦诚公开的科研精神,学会感谢借鉴的算法;二是在做系统时要考虑覆盖全部场景;三是在Demo展示中多列具体数据,并且多与观众互动,使其亲自感受项目的可行性和真实性。

教育部司长徐永吉则对学生提出三点希望,一是充分利用AI实验室等平台资源,参与AI应用项目研究与开发等活动;二是培养“AI+X”的学习思维和能力,加强AI与其他专业领域的融合;三是保持人才间的交流,协同探讨解决AI问题。

他表示,将在未来的项目实施过程中扩大国际师资的引入力度,联合更多高校和企业共同参与,并探索设立专项留学奖学金,以进一步提升我国高校AI应用型人才的培养质量,助力中国AI产业升级。

六、我国AI行业的人才现状和发展方向

在闭幕式结束后,教育部中外人文交流中心副主任杨晓春和创新工场AI工程院执行院长王咏刚接受了智东西等媒体的采访。

这8组大学生的AI说唱以假乱真、OCR准确率超百度腾讯

▲教育部中外人文交流中心副主任杨晓春(左)和创新工场AI工程院执行院长王咏刚(右)

1、从中美差异看我国AI人才的短板

目前中国的AI产业处在蓬勃发展的上升期,但发展也呈现明显的结构不均衡。美国的高端AI人才培养有多年的积累和底蕴,有高校、政府、企业之间的互动,有投资和被投企业之间的各种产业链,生态环境比较成熟。而我国既缺少像美国那样顶级的AI领军人才,又缺少能和中国的基于大数据、商业模式创新良好结合的AI商业化人才。在兼备自然科学、工程、人文方面的综合性知识和满足产业技术的发展方面,人才都是一个短板。

2、商业化AI人才应具备综合素质

王咏刚认为,成功的AI工程化人才应该具有综合素质,能将AI的科技和工程化场景很好的整合。他们至少应具备三种素质,第一要有扎实的基本功,第二有对前沿技术的跟踪能力,第三个是对算法在应用场景的需求、在应用场景的架构里面的交互等问题有基本的概念。

3、弥补人才短板,培养尖端人才

AI侧重应用场景,人才培养必须要走校企融合的机制,应搭建跨学科的建设。我国在AI技术、AI基础算法和基础知识的素质上并不比美国差,提升的关键在于建设学习期完整的生态环境,这需要老师的引导以及教育部、各个投资机构、企业的一起努力,以弥补整体生态环境的不足。

4、AI还不能做感性的事情

王咏刚坦言,目前AI还没有办法具备人类的情感和审美体验。虽然让机器去画画、作曲、写文章等许多尝试,但是这些AI技术还处在低幼期的临摹阶段,技术人员会继续探索这种AI创作的可能性。

5、AI公司商业化落地

AI公司的商业化落地有两大特点,一是需要长期投入,慢慢去学习行业知识和了解行业需求,然后定制化地作出解决方案。二是领域细化,定制化需求多。这对所有的AI创企都提出两个挑战,一个是需要好的AI科学家和好的商业化团队,另一个是必须有足够的资金,充分的心理准备来打持久战。

结语:AI人才储备战已经打响

近年来,随着AI技术的迅速发展,全球都在迎来新一轮的智能时代变革。在这个数据为王的时代,抢占AI市场最关键的就是资金、数据和人才。其中,人才是打赢任何一场科技战争的终极杀手锏。

根据《2017年全球人工智能人才白皮书》显示,目前全球AI人才仅约30万人,截止到去年10月,我国AI人才缺口已达到百万级。虽然就目前来看,无论是数量、质量还是人才结构,我国AI人才都暂时无法和在计算机尤其是AI领域积淀数十年的美国相提并论。在当下人才缺口面前,高校AI人才培养计划的出现无疑是给我过AI教育添了一针强心剂。

本次训练营8个获奖的学生作品中都是具有挑战性且与商业落地紧密结合的项目,从这些作品中,我们不仅可以看到当下AI前沿发展趋势,也看到了学生们出色的技术和工程实力,相信随着更多产学研结合的人才培养计划的实现,学生们的创意也会给产业界的AI落地带来更多启发。

这8组大学生的AI说唱以假乱真、OCR准确率超百度腾讯