Google于本周举行的云计算资料高峰会(Cloud Data Summit)上,发布新的统一存储引擎BigLake,它能够横跨不同的云计算与格式,提供一致的粒度访问控制,简化用户访问数据仓库与资料湖的流程。
Google指出,组织的资料日趋复杂,它们可能以多种格式散置在不同的环境或孤岛上,而让风险与成本日益增加,特别是需要转移资料的时候,而BigLake则让组织得以统一数据仓库与资料湖,使团队可以在不管底层的存储系统或格式下分析资料,还能消除复制或迁移资料的需求。
事实上,BigLake是将Google BigQuery的能力延伸到多云存储中,包括AWS与Azure,且借由开放格式来确保一个统一却又弹性的资料湖架构。
BigLake支持诸如Parquet与ORC等开放格式,而且提供粒度安全控制;得以保留单一的资料备份,在不同的分析引擎中采用一致的访问控制,包括Google Cloud或开源的Spark、Presto、Trino与Tensorflow等;并通过与Google Cloud Dataplex的无缝集成进行统一管理。
图片来源/Google
具体而言,BigQuery用户可通过创建BigLake表格,将任务延伸到于Google Cloud Storage、Amazon S3或Azure Data Lake Storage Gen2上的数据库,资料管理员可利用政策标签于BigLake表格上就表格或行、列配置安全功能。
当管理人员创建BigLake表格之后,用户即可像使用其它BigQuery表格一样进行查询,而且每一名用户只会看到被授权访问的部分。