由Apache Spark技术团队所创立的企业Databricks,现在启动了一项新的开源项目Delta Sharing,这是用于即时安全交换大型资料集的开放协议,官方表示,Delta Sharing是第一个实现跨产品的安全资料共享协议。目前Databricks正积极与全球软件和资料供应商,合作发展并推广Delta Sharing。
企业存在与其客户、供应商和合作伙伴安全交换资料的需求,以零售商为例,如此就可以和其供应商即时共享销售资料,或是供应商也能与零售商共享即时库存,但DataBricks提到,由于共享解决方案与厂商相关,因此资料共享便受到了限制,也对不同平台的资料供应者与消费者带来障碍。
而通过Delta Sharing,资料用户就可以在Pandas、Tableau或各种实例开源协议的系统,直接连接共享资料,而不需要特别部署特定的平台,如此便能减少访问资料的准备时间,也最大程度减少资料供应者的工作。DataBricks举例,过去零售商要跟供应商资料分析师共享资料,分析师必须与自家IT、安全和采购团队合作,在公司部署与零售商相同的数据仓库解决方案,才能从数据仓库导出资料到资料科学工具,而这个过程可能需要历经数个月。
Delta Sharing的目的就是要在不需复制资料的情况下,直接即时地共享资料,DataBricks指出,大多数企业的资料存储在云计算资料湖系统,而Delta Sharing能够让企业安全地以Delta Lake或Apache Parquet格式共享任何既存的资料集。Delta Sharing适合大规模应用,支持TB级资料集等对传统解决方案是一大挑战的共享场景,Delta Sharing利用云计算存储系统的低成本和灵活性,可靠地共享大规模资料集。
资料接收者可以直接从选用的工具中使用资料,不需要安装新的平台,Delta Sharing协议的设计让大多数工具容易实例,而且因为以Parquet为基础,该格式已经受大多数工具支持,因此要实例连接器非常简单。DataBricks也强调了Delta Sharing的安全性,该协议能满足用户对隐私和法规的要求,可让用户单点执行授权、关注和审核共享资料访问。
Delta Sharing是一个简单的REST协议,能够安全地分享部分云计算资料集的访问权限,其利用S3、ADLS或GCS等云计算系统,可靠地传输大型资料集。对资料提供者来说,Delta Sharing让用户可以共享以Delta Lake格式存储在云计算上的资料表格。官方提到,Delta Lake表格其实就是Parquet文件的集合,可以按需求将现有Parquet表格,简单地打包到Delta Lake中。
资料提供者可以决定要共享的资料,通过执行共享服务器来实例Delta Sharing协议,并且管理资料接收者。DataBricks在发布Delta Sharing的同时,也开源了共享服务器实例,可供云计算供应商提供托管主机服务。当资料提供者把共享资料环境架设完成,接受者就可以使用连接器,在Pandas、Apache Spark、Rust和Python上方便地访问资料。