Google发布了Open Images V6,这扩展了Open Images数据集注解,加入像是狗接飞盘这样的视觉关系,以及女人跳跃等人类动作注解,还添加了大量的图片等级(Image-Level)的注解,图片等级注解为整张图像提供整体的注解。特别的是,这个补充数据集还多了局部化叙事(Localized Narrative)注解,这是一种全新的多模式注解决方案式,可以在对象描述上同步语音、文本和鼠标轨迹。
Google提到,局部化叙事的目的之一,便是研究以及利用视觉和语言之间的关联,配对图像以及人类撰写的描述,也就是为图像加上图说。而图像加图说的限制,则是缺乏视觉基础,也就是无法将图像内容对应到文本描述中,(下图中)过去的方式是将文本描述中的名词,在图像中以各种颜色搭建出最小边界框(Bounding Box)。
而在Google的局部化叙事中(上图右),每个在文本描述中的单词都是基础,局部化叙事由注解者产生,注解者提供图像的语音描述,并同时将光标移到描述的图像区域上,Google表示,语音注解是方法的核心,因为可以将描述和参照的图像区域关联起来。而为了使描述更容易访问,注解者会手动转录他们的描述,并与自动转录的结果进行比对,以恢复描述的时间戳,确保语音、文本和光标轨迹正确且同步。
由于同步语音和光标指示很直观,所以Google并没有给注解者很明确的任务说明,因此注解者可能会以螺旋或是画下底线的方式在图上注记,而这可能为Google未来的用户接口设计研究,带来新的想法。新加入的局部化叙事注解数据集非常丰富,鼠标轨迹总长有6,400公里,不停播放所有的描述语音,则需要花费1.5年的时间。
在Open Images V6中,Google还增加视觉关系类型注解,添加像是男人踩着滑板、男人女人牵着手,以及狗接住飞盘等范例(下图)。Google提到,在计算机视觉中,图像中的人是计算机视觉感兴趣的重点,而对于许多应用程序来说,了解图像中人们的行为则至关重要。Open Images V6还包含了跳跃、微笑和躺下等独立动作。另外,Google也增加了2,350万个经人工验证的图像等级标签,因此现在于2万类别中,已经有接近6,000万个标签。