Google推智能数据结构Dataplex,可跨云集成资料破除资料孤岛

Google发布了用来破除资料孤岛的资料共享产品Dataplex,Dataplex是一个提供集成式分析功能的智慧数据结构(Data Fabric),可将Google云计算和开源工具结合在一起使用,供用户快速整理、保护、集成和分析大规模资料,官方提到,通过使用机器学习功能,以及具弹性的模型,能够大幅减少用户花在资料处理基础设施上的时间。

借由Dataplex,用户可以自由地选择资料存储的位置,以获得合适的性能与价格,并且选用符合需求的工具,除了Google云计算服务之外,用户也能使用Apache Spark和Presto等开源分析技术。Google提到,Dataplex的重点在于让用户,以有助于业务的方式组织和管理资料,而不需要移动或是复制资料,因此Dataplex提供像是湖泊、资料区域和资产等逻辑结构,这些逻辑结构能够抽象化基础设施系统,并成为设置资料政策、安全和生命周期的基础。

Dataplex主打其资料智能功能,在用户对资料进行管理时,Dataplex会使用内置的资料品质检查功能,自动收集结构化和非结构化元数据,所有元数据会自动注册到元数据存储中,可供用户搜索和探索,Google举例,当用户将Parquet格式资料,写入到Google云计算存储桶中的时候,Dataplex会自动截取文件元数据、检查表格格式,以及执行资料品质检查,并使得这些资料可以被查询。