BigQuery现在原生支持半结构化资料

Google宣布开始在其云计算数据仓库BigQuery,支持原生JSON资料类型,而这项新功能让用户可以在BigQuery中,存储和分析半结构化资料。官方提到,通过支持新的JSON存储类型,以及高端功能,诸如JSON点记法(Dot Notation)、适应性资料类型变更、新的JSON函数,以及半结构化资料,BigQuery用起来更主动,用户能以原生格式进行查询。

构建资料工作管线,需要考量许多方面,包括资料截取来源,或是应用程序要以批次或是流媒体方式使用资料,以及表格设计的方式等,Google解释,因为这些配置通常需要在构建资料工作管线之前决定,所以当后来不敷使用时,常需要花菲戈昂成本,或是繁琐地过程进行修改。

为了处理这类事件,用户过去需要构建复杂的自动化处理机制,也可能得暂停资料截取,由人工手动介入,或是将预期之外的资料,写入到包山包海的字符串字段中,并在后期使用时,对该字段进行额外解析。但Google提到,这些方法都会增加成本、复杂性,并且降低用户操作资料的能力。

JSON是一种受到广泛使用的格式,由于不要求架构,因此能够处理半结构化资料,这使得用户能获得更大的灵活度,存储和查询非总是遵循固定模式和资料类型的资料。以JSON资料类型截取半结构化资料,BigQuery可独立编码和处理JSON字段,并且通过点记法单独查询JSON资料字段的数值。

因此在BigQuery中,支持半结构化资料,能够给用户更大的自由度,并且减少处理相关问题的成本。Google提到,相较于从字符串字段截取JSON元素,需要处理整个人信息料区块,来得有效率许多,更具成本效益,而且即便是现有的资料表,也能应用这项新功能。