Google进一步扩展计算机视觉资料集Open Images,发布最新V7版本,加入被称为点标签(Point Labels)的新注解类型,另外,Open Images V7还加入了多合一视觉工具,供用户同时使用多注解资料,更好地探索资料集。
Open Images计算机视觉资料集内置900万张图像,标签涵盖数千种对象类别,可让研究人员训练并且评估计算机视觉模型。Google自2016年发布Open Images以来,经过多次更新扩展,从最初6千个对象类别扩展到2万个,并且在190万张图像的子资料集中,添加了边界框注解、视觉关系、实例切割和定位叙述。
Google收集点标签的主要策略,是运用机器学习模型以及人工验证,机器学习模型会选择图片上的兴趣点,并且提出是非问题,像是在图片上的一点上寻问“这在南瓜上吗?”,接着由人工注解者针对问题回答是或是否,同一问题会分配给不同的注解者,所有注解者会对每个注解点指定是、否或不确定的标签。
每张带有注解的图像,拥有一个点集合,每个点都带有是或否的标签,研究人员提到,这些点可对语义分割任务提供稀疏资讯。研究人员共收集了3,860万个点的注解,涵盖5,800类别共140万张图像。
通过专注在点级标签,研究人员得以对更多的图像和类别加入注解,比起实例分割(Instance Segmentation)注解,点标签涵盖多达16倍的图像,与边界框注解(Box Annotation)相比,点级标签涵盖类别量为9倍。与现有的分割资料集PASCAL VOC、COCO、Cityscapes、LVIS或ADE20K比起来,点标签明显覆盖更多的类别和图像。
点级标签也是Open Images第一个标签类型,能对可数或是不可数物体提供定位资讯,研究人员提到,整体而言,新收集的标签资料相当于两年人工注解的工作量。经过Google的实验证实,点标签类型的稀疏资料,适合用于训练和评估分割模型,将模型直接使用点标签资料训练,可以获得与密集注解资料相当的模型品质。
除了新的点标签资料,Open Images V7网站现在提供专用的可视化工具,可供用户探索定位描述注解、点标签和多合一查看图,在同一张图中,同时显示不同的图像标签。