Google宣布推出了资料验证工具(DVT),这是一个开源的Python命令行工具,可以跨不同环境进行自动化资料验证。
Google提到,资料验证是数据仓库、数据库和资料湖搬迁的关键步骤,工作包括比较来源和目标表格的结构化和半结构化资料,并在每个搬迁步骤,像是SQL脚本转换、资料和架构搬迁以及ETL搬迁等,验证这些步骤是否正确完成。
跨平台验证资料虽然重要但是却非常耗时,用户可能必需要构建和维护自定义解决方案,才能完成这项工作,而DVT提供了一个标准化的解决方案,可供用户根据本地端系统中的资料,验证Google云计算中心搬迁的资料,DVT能够与现有企业基础设施和ETL工作管线集成,进行无缝且自动化的验证。
DVT使用Ibis框架来连接到大量数据源,Ibis则是一个Python框架,能够用标准方式访问资料,并且对不同来源的资料进行分析运算,简单来说,Ibis供用户方便地使用Python编写SQL,但在访问资料外,其重点在于分析,除了可用于SQL数据库,还支持后端各种资料存储系统。
有了Ibis的支持,DVT能够连接到大量的资料源上,包括BigQuery、AWS S3、MySQL、Oracle、Spanner、SQL Server以及Teradata等。DVT能执行多层资料验证,从各种表格层级的验证到列验证。