开源数据湖项目Delta Lake将交由Linux基金会管理

由Apache Spark技术团队所创立的数据科学公司Databricks宣布，旗下的Delta Lake将由Linux基金会托管，致力成为数据湖泊的开放标准，而原本采用的的Apache 2.0授权许可将不会改变。

Delta Lake是一个数据湖的存储层，简化企业数据工程架构的复杂性，其提供ACID交易、可扩展的元数据处理等功能，以及统一了串流和批次数据处理等功能，该项目的目的，便是要解决数据湖常出现的问题。

Databricks提到，数据湖的使用，常会因为不完整的数据截取，而造成数据损坏，而Delta Lake的ACID交易功能，则可以在多重数据串流中并行读取和写入数据湖，防止数据损坏问题发生，另外，数据湖的数据来源，可能无法提供完整的字段数据或是正确的数据类型，而Delta Lake的强制结构（Schema Enforcement）功能，可以防止坏数据毁损其他数据。

由于开放性和可扩展性是Data Lake重要的设计原则，通过开放协议设计，并使用既存JSON和Apache Parquet等开放格式，将所有数据和元数据存储在云计算对象存储上，而这种开放性让用户的数据得以不被特定供应商锁住，且对于构建数据科学、机器学习和SQL等生态系统统，也极为重要。

Databricks在4月的时候开源了Delta Lake，现在已经受到了广泛的使用，而为了进一步扩大社群，Databricks因此决定与Linux基金会合作，通过Linux基金会的影响力来发展开源项目。Databricks也与阿里巴巴、Booz Allen Hamilton、英特尔和Starburst合作，让Delta Lake不仅能支持Apache Spark，还能同时支持Apache Hive、Apache Nifi和Presto。

接下来Delta Lake会采取开放治理的模型，鼓励社群参与和贡献技术，借由长期管理框架，创建Delta Lake社群生态系统，并开发数据湖中数据存储的开放标准，以确保存储在Delta Lake的数据，保持开放性与可访问性。