Nvidia与Spark开源社群合作,在即将发布的资料运算引擎Apache Spark 3.0,支持端到端GPU加速功能,Nvidia提到,Spark 3.0创建在开源GPU机器学习平台RAPIDS之上,可大幅提升资料提取(Extract)、转换(Transform)和加载(Load)资料的性能。
Spark 3.0让资料科学家和工程师,能够将GPU广泛地用在SQL数据库,进行ETL资料处理工作负载,而且人工智能模型训练,也可以在同一个Spark集群上处理,而不用分开在独立的基础设施以及程序中执行,Nvidia表示,这样的改进可以提升整个人信息料科学工作管线性能,用户不需要更改现有企业本地部署或云计算平台上的Spark应用程序,就能从资料湖的ETL到模型训练都获得加速。
这项实例是以开源的RAPIDS加速器完成,这个加速器会拦截之前在CPU中执行的功能,并转换到GPU上运算,切确的功能包括在不需要修改程序代码的情况下,大幅提高Spark SQL和DataFrame的执行性能,而且机器学习和深度学习可以和资料准备使用同一个基础设施。还能跨Spark分布式集群中的节点,提升资料传输性能,其函数库由于利用UCF联盟的开源UCX框架,可让资料直接在GPU内存上移动,以大幅降低延迟。
由于Adobe和Nvidia创建战略人工智能合作伙伴关系,因此已经在Databricks上执行Spark 3.0,将GPU资料分析技术,用于开发Adobe Experience Cloud以及支持数字商业的功能上,而运用新技术后,运算性能提升了7倍。Nvidia提到,由于Spark 3.0获GPU加持,可让资料科学家使用更大的资料集来训练模型,并且频繁地重新训练模型,进而提升模型的准确性。
而Spark 3.0之所以能够良好地运用GPU,是因为Nvidia与Apache Spark背后支持的企业Databricks合作,使用RAPIDS组件来优化Spark,而Databricks的创办人同时也是Apache Spark的创建者,其提供企业云计算服务,让医疗保健、金融和零售等各行业,在其云上执行资料处理运算。