由Apache Spark技术团队所创立的数据科学公司Databricks宣布,旗下的Delta Lake将由Linux基金会托管,致力成为数据湖泊的开放标准,而原本采用的的Apache 2.0授权许可将不会改变。
Delta Lake是一个数据湖的存储层,简化企业数据工程架构的复杂性,其提供ACID交易、可扩展的元数据处理等功能,以及统一了串流和批次数据处理等功能,该项目的目的,便是要解决数据湖常出现的问题。
Databricks提到,数据湖的使用,常会因为不完整的数据截取,而造成数据损坏,而Delta Lake的ACID交易功能,则可以在多重数据串流中并行读取和写入数据湖,防止数据损坏问题发生,另外,数据湖的数据来源,可能无法提供完整的字段数据或是正确的数据类型,而Delta Lake的强制结构(Schema Enforcement)功能,可以防止坏数据毁损其他数据。
由于开放性和可扩展性是Data Lake重要的设计原则,通过开放协议设计,并使用既存JSON和Apache Parquet等开放格式,将所有数据和元数据存储在云计算对象存储上,而这种开放性让用户的数据得以不被特定供应商锁住,且对于构建数据科学、机器学习和SQL等生态系统统,也极为重要。
Databricks在4月的时候开源了Delta Lake,现在已经受到了广泛的使用,而为了进一步扩大社群,Databricks因此决定与Linux基金会合作,通过Linux基金会的影响力来发展开源项目。Databricks也与阿里巴巴、Booz Allen Hamilton、英特尔和Starburst合作,让Delta Lake不仅能支持Apache Spark,还能同时支持Apache Hive、Apache Nifi和Presto。
接下来Delta Lake会采取开放治理的模型,鼓励社群参与和贡献技术,借由长期管理框架,创建Delta Lake社群生态系统,并开发数据湖中数据存储的开放标准,以确保存储在Delta Lake的数据,保持开放性与可访问性。