英伟达RAPIDS平台为GPU提速 数据处理时间较CPU快50倍

智东西(公众号:zhidxcom)
编 | 花弧

导语:英伟达本月推出的RAPIDS开源GPU加速平台为数据科学家提供标准化的流水线式工具,数据处理速度较仅用CPU提升50倍。

智东西10月23日消息,今天,英伟达在北京召开RAPIDS平台的媒体沟通会,英伟达亚太区解决方案架构主管赵立威详解了RAPIDS开源GPU加速平台。

英伟达RAPIDS平台为GPU提速 数据处理时间较CPU快50倍

该平台发布于2018年10月10日的GTC Europe大会上,是一款针对数据科学和机器学习的GPU加速平台,为数据科学家提供标准化的流水线式工具,数据处理速度较仅用CPU提升50倍。

目前该平台已经与SAP、IBM、Oracle等公司建立合作关系。

一、针对数据科学和机器学习

这款RAPIDS开源GPU加速平台有三个特征:

1.它是一个开源平台;

2.它是一个软件平台;

3.这个产品,或者叫技术,面向数据科学以及机器学习的市场。

英伟达创始人黄仁勋在GTC Europe大会上着重强调了数据科学这一市场。据分析师估计,面向数据科学和机器学习的服务器市场每年价值约为200亿美元,加上科学分析和深度学习市场,高性能计算市场总价值大约为360亿美元,且该市场还在持续快速发展。

“数据分析和机器学习是高性能计算市场中最大的细分市场,不过目前尚未实现加速,”黄仁勋在GTC Europe上发布RAPIDS时说。

黄仁勋还在GTC Europe上提及“数据驱动”的概念。互联网、零售等行业都是典型的数据驱动型行业,比如沃尔玛生鲜产品的物流和仓储需要基于大量数据去测算。

英伟达RAPIDS平台为GPU提速 数据处理时间较CPU快50倍

RAPIDS开源GPU加速平台能对这一过程进行加速,通过数据准备、数据合并、数据降维三个步骤加速处理数据。

二、RAPIDS比仅有CPU的系统快50倍

RAPIDS开源GPU加速平台构建于Apache Arrow、pandas和scikit-learn等流行的开源项目之上,为最流行的Python数据科学工具链带来了GPU提速。

传统的数据科学运算都是基于大数据框架Hadoop SPARK来做的,跑在分布式的CPU上。随着摩尔定律的终结,CPU的算力提升会越来越慢。市场上也有几家GPU Data base加速非常快,但他们没有把数据的准备、操作、ETL的过程和Machine Learning等做成标准化的Pipeline(流水线)。英伟达的RAPIDS平台实际上把数据操作、Machine Learning的一些库整合成了一个Pipeline,所以整个流程会加快。

赵立威玩笑道,过去当数据科学家是一件非常悠闲幸福的事,有大量的时间喝咖啡,因为数据处理的过程中涉及到大量等待时间。用了RAPIDS之后,等待(图中绿)时间变短,需要数据科学家创造性参与的部分(红色)相应变多了。

英伟达RAPIDS平台为GPU提速 数据处理时间较CPU快50倍

训练结果表明,与仅有CPU的系统相比,RAPIDS速度快50倍,这可将数据科学家的数据处理时间从数天减为数小时或从数小时减为数秒。

三、与开源社区、以及各行业开展紧密合作

为了将更多的机器学习库和功能引入RAPIDS,英伟达广泛地与开源生态系统贡献者展开合作,其中包括Anaconda、BlazingDB、Databricks、Quansight、scikit-learn、Ursa Labs负责人兼Apache Arrow缔造者Wes McKinney以及迅速增长的Python数据科学库pandas等。

为了推动RAPIDS的广泛应用,英伟达正努力将RAPIDS与分析及数据科学方面领先的开源框架Apache Spark进行整合。

沃尔玛、惠普等企业已经率先应用了RAPIDS开源GPU加速平台,IBM等企业也表示期望利用RAPIDS来为客户提供全新的机器学习工具。