智东西(公众号:zhidxcom)
文 | 心缘
智东西8月29日消息,高校AI训练营上周刚落幕,今日,第二届AI Challenger全球AI挑战赛又来啦!本届大赛主题为“用AI挑战真实世界的问题”,由创新工场、搜狗、美团、美图联合主办,中国气象局北京城市气象研究所等协办,投入资金超千万元规模。
AI Challenger 2018新增十余个高质量数据集,提供超过300万元的奖金池,为参赛选手提供免费的GPU资源、开放社群和全球优质课程资源,并为教育部“中国高校AI人才培养计划”提供了在线社区和实践平台的支持。智东西曾对我国高校AI人才培养的现状进行解读(中国AI人才进入量产模式!26所大学抢设新专业,首批AI本科来了)。
在开幕式上,创新工场创始人兼CEO李开复、搜狗CEO王小川、美团点评CTO罗道锋、美图公司创始人兼CEO吴欣鸿分别发言,并在大赛启动仪式后,接受智东西等媒体的采访。
▲从左至右分别为美图公司创始人兼CEO吴欣鸿、创新工场创始人兼CEO李开复、搜狗CEO王小川、美团点评CTO罗道锋
一、五大主赛道开启,奖金池超300万元
第二届AI Challenger挑战赛于今日正式开赛,在第一届的基础上,主办方引入更多企业、大学、政府机构的合作,新增十余个高质量数据集和十余个兼具科研和产业应用的竞赛,设立超过300万元的奖金并提供投资和实习机会。
本届挑战赛共设置了五个主赛道,分别是英中文本机器翻译、细粒度用户评论情感分析、无人驾驶视觉感知、观点型问题阅读理解和短视频实时分类。据介绍,五个主赛道的数据集均为业界最大规模。
主赛道的数据集和竞赛从即日起开放,至11月4日,系统会按照评测指标对参赛模型的预测结果实时反馈分数并更新排名,到12月18、19日,主办方将举办总决赛答辩。
实验赛道的数据集和竞赛全年开放,并会在每季度持续建设和开放新内容。其中,零样本学习竞赛将于明日截止。基于北京气象局3年气象数据的天气预报竞赛、世界上首个农作物病虫害检测竞赛、国内首个眼底水肿病变区域自动分割竞赛等赛道正在进行中。
本次大赛理事会会员、创新工场人工智能工程院执行院长王咏刚表示,AI Challenger是中国最大科研数据平台和最大费商业化竞赛平台,目标成为世界级平台。
二、数据是AI研发的核心
▲创新工场创始人兼CEO李开复
李开复首先回忆1983年他在美国做语音识别博士论文的经历。当时业界没有实现数据标准化,几大语音识别实验室各用各的数据库,都自称是业界第一。他的导师图灵奖得主Raj Reddy建议说,要做出标准化的最大数据集,语音事业才能快速进步。
李开复表示,今年有三件事可以展现AI的潜力,一是有顶尖人才,二是有大量数据满足人才研究需求,三是让数据能够实际落地。他希望各界AI研究者不会因为数据问题影响研究进展,能从巨大的数据中产生有价值的应用,创造更多业界需要的人才。
▲搜狗CEO王小川
AI应用已经深入各行各业,而数据是AI研发的核心。作为一家数据引擎公司,搜狗之前和清华联合成立了一个实验室,为高校提供了大数据资产。
王小川表示,作为中国第一大输入法,搜狗的一个关键词是“语言” 。因此,在本次大赛,搜狗提供超过30万带标注的问答数据集和标注准确率超过97%的1300万对语料翻译数据集,同时还提供300万对具有上下文情景的中英双语数据。
他希望通过提供语料数据的帮助,能够在给参赛者帮助的同时,自己也得到一定启发。
三、介于感知与认知智能的弱AI应用
▲美团点评CTO罗道锋
几位主办方也分享了一些关于本次大赛和AI行业的认知。
在本次大赛上,美团贡献了两个赛道的相关数据集,一个是做细粒度情感分析的15万条餐饮用户评论数据集,另一个是和伯克利产业联盟合作的包含1.2亿张原始图片、10万张标注图片的无人驾驶视觉感知数据集。
罗道锋说,在图像识别、OCR、语音识别、机器翻译等领域,AI已进入实用化阶段,美团点评在AI领域投入非常大,希望借此提升商业能力。但现在AI技术应用仍是弱AI,AI的发展多源于现在有更好的数据、更强的算力和超高空间的拟合,发展AI需要长期有耐心。
▲美图公司创始人兼CEO吴欣鸿
AI发展有三个层次,运算智能、感知智能和认知智能。美图公司CEO兼创始人吴欣鸿认为,现阶段AI处于二三阶段之间,AI的部分感知能力已经超越人类,但在认知阶段还比较幼稚。
美图希望用户在虚拟世界中变得更美,实现这个目标就要依靠感知智能和认知智能。美图在计算机视觉投入较多精力,该公司在2010年创立美图影像实验室(MTLab),主要有三个方向:一是智能识别技术,提升摄像头感知能力;二是皮肤健康程度识别,给出匹配护肤建议;三是审美,比如根据用户五官脸型提供个性化推荐和根据照片画成不同风格的插画。
吴欣鸿表示,美图每天超过两亿照片产生,美拍已成为一个短视频社区,美图秀秀也将在今年9月正式转型为社交平台,因此美图未来将能提供更多公开数据。
四、解决实际问题的数据更有价值
在接受媒体提问时,李开复告诉智东西,将联合主办方们聚拢起来做这个公益事宜的初衷,正是基于这四家公司在几个概念上拥有同样的认知和理想。其一,大量数据集对推动AI发展有巨大帮助;其二,通过大数据和竞赛平台推动人才培训,批量培养人才和潜在人才上;此外,每家公司都能提供了落地相关的数据。
王小川认为,过去的视觉、语音等学术研究多是由高校推进,更多基于学术视角去判定研究方向,这些方向可能未必适用于商业落地。而企业在未来落地场景趋势的判断方面具有先天优势。
根据王小川的介绍,设置这五个主赛道的出发点都是基于行业应用需求,为参赛者提供真实应用场景的数据。有三个赛道属于自然语言处理(NLP)领域,NLP领域进展相对缓慢和困难,让机器真正理解文字的含义是非常有挑战性的项目;另外两个赛道的主题则是计算机视觉领域非常前沿的问题,在应用层面尚无较好突破。
美图设立的“短视频实时分类”赛道也是源自美图云技术部门今年被ECCV收录的一篇与短视频分类相关的论文,与公司本身的研究方向密切相关。
五、数据分享的挑战
AI需要大量数据,而数据的收集、管理和分享并非易事。
王咏刚告诉智东西,今年AI Challenger整体投入超过千万元,其投入资金主要分布在奖金、数据集建设以及整体大赛的运营费用。由于数据库建设耗资巨大,明年他们会根据设定要解决的实际问题,来定义数据集的最大开销。
由于数据的数量和质量都很重要,校正标注数据需要消耗大量资金投入。李开复表示,大学实验室导师所能拿到的数据跟AI Challenge的数据集相比可能差了三个数量级。
个人隐私与数据的平衡一直是热点话题。几家公司分别表示,其提供的公开数据或者不涉及用户隐私,或者经过严格脱敏,尽最大力度保护用户隐私。
六、深度学习仍是产业界主流
现在学术界关于小数据和零数据样本的研究逐渐兴起。对此,王小川和李开复都认为,不应该因为一些大牛的话就做出未来趋势的判断。
王小川认为如今最大的突破是在深度学习,让机器取代人去从大量数据中寻找特征。目前,让机器理解和发现规律的难度依然很高,距离真正的推理系统还有较大距离。另外,自然语言处理是符号逻辑,处理语言数据的每个词都有巨大信息量,对词的定义和解读则是更难的问题。
李开复补充道,所谓零数据学习通常是单一领域针对可预测结局、并且有目标函数才能做出的事情。学术界或许期望探索接近强AI的更大目标,但对拥有海量数据的产业界而言,深度学习还有很多应用。尤其是对接真实的应用领域,深度学习刚进入井喷式应用阶段,还是核心技术之一。
结语:AI发展需要更完善的开放数据集
在本届AI Challenger挑战赛开幕式上,几位联合主办方都反复强调建立开放数据集和实现数据共享。在零样本学习算法取得突破性进展之前,大数据是决定机器学习模型的质量的关键。
目前,高质量的大型数据集主要集中在斯坦福大学、卡内基·梅隆大学、清华等顶级计算机高校以及谷歌、BAT等科技巨头。多数AI研究人员和AI从业人员很难接触到完整的、精确的海量数据,如果从头自己构建,则将是一项费时费力又难以实现的工程。而Kaggle等国际上热门的竞赛通常存在跨国问题,在我国的理解度、参与度和落地能力都受限。
更多本土化竞赛和标准化开放数据集的出现,将使得更多学生及AI研究爱好者可以接触到高质量数据集,同时有助于衡量各种算法的效果,有助于催化我国在AI前沿领域的技术突破和创新应用。