智东西(公众号:zhidxcom)
文 | Lina

智东西11月21日苏州报道,在英伟达GTC China的年度大会上,智东西与少数媒体一同采访了英伟达解决方案架构与工程团队副总裁Marc Hamilton,深入讲解了英伟达RAPSID开源GPU加速平台。

对话 | 英伟达RAPIDS深度解读:深度学习很重要,但是还不够

▲英伟达解决方案架构与工程团队副总裁Marc Hamilton

RAPSID发布于2018年10月10日的GTC Europe大会上,是一款针对数据科学和机器学习的GPU加速平台,它为数据科学家提供标准化的流水线式工具,数据处理速度较仅用CPU提升50倍。

一、深度学习很重要,但是还不够

在过去几年的人工智能大潮当中,深度学习(Deep Learning)成了最火热的话题之一。作为机器学习(Machine Learning)的一个分支,它几乎成为了AI的代名词,在AI安防、语音等方面大放异彩。

然而,深度学习有着它的局限性。深度学习在处理非结构化数据(比如语音、图像等)上的效果更好,而机器学习却在结构化数据处理上效果更好。

在某些相对复杂的场景里,深度学习往往不足以完成任务,需要引入其他机器学习技术。

举个例子,目前,在银行、零售店、医疗等行业中有大量结构化数据,比如个人消费经历、库存、电子病历等。越来越多的企业希望从这些数据中挖掘出价值,反向优化自己的运作流程。

然而随着数据量的不断增加,数据科学家们在处理这些信息时所需要的时间也越来越长。

在过去6年里,英伟达投入了大量的资源与精力进行深度学习的相关研发,也取得了很不错的成功。然而,对于除了深度学习之外的很多机器学习算法,GPU却不能很好地支持。

对话 | 英伟达RAPIDS深度解读:深度学习很重要,但是还不够

这张图里是一个普通英伟达数据科学家的一天,我们可以从图里看到,在不同的数据处理之间有着大量的休息时间(蓝绿色部分,一般他们用这个时间来喝杯咖啡),然而由于事情还没有做完,所以他们晚上通常还要加会班,工作效率非常低。

二、推出RAPIDS开源GPU加速平台

为了改变这一现状,在今年10月的GTC 2018欧洲站上,英伟达推出了其机器学习开源GPU加速平台——RAPIDS。

Marc Hamilton表示,数据科学家不需要大量修改自己的算法,只需要在自己现有的机器学习算法上进行少量调整——比如“加入三行代码”,就可以基于RAPIDS进行机器学习算法的加速。

对话 | 英伟达RAPIDS深度解读:深度学习很重要,但是还不够

RAPIDS平台通过加速cuDF、cuML、cuGRAPH库,英伟达能够让GPU加速计算应用到更多机器学习的算法与场景当中,为数据科学家提供标准化的流水线式工具。

比如在数据处理方面,RAPIDS将会通过数据准备、数据合并、数据降维三个步骤加速处理数据。

此外,RAPIDS开源GPU加速平台构建于Apache Arrow、pandas和scikit-learn等流行的开源项目之上,能够为最流行的Python语言来了GPU提速。

对话 | 英伟达RAPIDS深度解读:深度学习很重要,但是还不够

▲支持RAPIDS的企业、云服务平台等

RAPIDS目前已经被非常广泛的采用。

三、快速进行AI流感疫情爆发检测

在今天的GTC China主论坛演讲上,黄仁勋表示,RAPIDS目前已经被非常广泛的采用,比如华大基因、中国移动、平安科技等中国公司都宣布引入它进行机器学习加速。

对话 | 英伟达RAPIDS深度解读:深度学习很重要,但是还不够

华大基因用RAPIDS进行癌症基因检测、中国移动用它进行优化无线网络——这个在5G时代至关重要、平安科技则用它来模拟大型疫情爆发情况。

Marc Hamilton进一步介绍了利用RAPIDS来模拟检测流感疫情爆发情况的经过。

在流感季节,各个国家的政府卫生部门都会从医院、医生、患者处收集数据,找出疫情的传播原因与传播规律。

然而,对于中国这种人口大国来说,这项工作的一大挑战就是数据量过于庞大,如果要从中找出规律,可能要需要长达4个月的时间——这时流感季节早就结束了。

而基于英伟达RAPIDS平台,数据处理速度可以较仅用CPU提升50-100倍,这项工程可以被缩短到几天甚至几个小时的时间,快速找到疫情的传播原因与传播规律。