Google改进BigQuery文本分析能力,正式推出高效搜索功能

Google云计算仓储服务BigQuery正式提供搜索索引和搜索功能,这将可让用户更有效率地搜索富文本资料,官方提到,搜索索引让用户可以减少将资料导出至独立搜索引擎的需要,方便构建资料驱动应用程序,或是同时综合分析文本资料和其他结构化、半结构化、非结构化、流媒体和地理空间资料。

Google在内部以10TB、100TB和1PB的资料,测试了运用搜索索引的SEARCH函数,以及无搜索索引的REGEXP_CONTAINS函数,在常见搜索案例的平均执行速度,使用搜索索引的SEARCH函数执行速度是替代搜索方法的10倍。

有搜索索引的支持,使得BigQuery SEARCH功能所查询的字节数量比起替代查询少2,682倍,而Slot使用效率,比替代搜索高1,271倍。由于Slot是BigQuery计算单位,因此越少的Slot时间支付的费用也就越少。

搜索索引支持的BigQuery搜索功能,可用于广泛的使用案例,像是罕见词搜索,这是在日志分析中常见的查询模式,企业常需要大海捞针地,在数百万甚至数十亿行资料中,搜索特定网络ID、错误码或是用户名称,以解决特定问题或是执行安全审核,使用搜索索引让BigQuery避免大规模扫描操作,可以精准定位回答查询所需要的资料。

BigQuery的日志分析预览功能,便是利用BigQuery搜索功能,提供用户日志分析即服务解决方案,该功能提供专用接口,供用户查询常见的日志记录元素,像是IP位置、URL和电子邮件等。