Google发布资料集透明度工具Data Cards Playbook

随着机器学习的发展,训练模型所使用的资料集,在负责任和知情开发变得越来越重要重要,Google在早些时候发布的Data Cards,便是一个能够提供资料集生命周期透明度的资料集文件框架,使下游能够掌握资料集的起源、发展、意图和演变,而企业现在可以使用Google新发布的Data Cards Playbook,来简单实践Data Cards框架。

Data Cards是一组透明度构件,提供机器学习资料集的结构化摘要,解释塑造资料的过程和基本原理,以及描述使用该资料来训练和评估模型的方法,Data Cards至少需要5项内容,包括上游来源、资料收集和注解决方案法、训练和评估方法、预期用途,以及影响模型性能的决策。

Google提到,在实践中,有两个重要因素决定透明度构建的构件与否,第一是识别决策者使用资讯的能力,以及获取该消息所需要的流程和指南。研究人员探索这些想法开发了工具,使各种资料集和组织环境都能适用Data Cards。这些工具可用于创建边界基础架构,这些流程和参与模型在实践社群间交流消息,提供了必要的技术和功能性基础设施补充。

Google现在推出的工具称作Data Cards Playbook,这是一个自我引导式的工具包,供各团队使用其机器学习资料集来应对透明度挑战,简单来说,Playbook能够引导用户简单地应用Data Cards框架,从规划透明度策略、定义受众,到撰写复杂资料集的摘要,确保资料集的可用性。

Google通过多种研究方法创建Data Cards Playbook,包括了解团队所需要的资料集和模型资讯,以及在日常工作中使用这些资讯的方式。在过去2年间,Google内部有15个团队使用该透明度构件模板,在讨论与合作下,研究团队创建了20多种Data Cards,用于描述图像、语言、表格、视频、音频和关系资料集,在生产环境的设置方法。

Data Cards Playbook以冲刺(Sprints)和协同设计实践作为蓝图,因此跨职能团队及利益相关者,可以共同定义透明度,解决创建资料集文件和治理解决方案所遇到的问题。由于Google替透明度模式创建指引,用以协助用户克服在生成透明文件时所遭遇的挑战,借由提供最佳实践,并确保Data Cards对不同背景的读者皆有用。