Google添加局部化叙事注解补充Open Images数据集

Google发布了Open Images V6，这扩展了Open Images数据集注解，加入像是狗接飞盘这样的视觉关系，以及女人跳跃等人类动作注解，还添加了大量的图片等级（Image-Level）的注解，图片等级注解为整张图像提供整体的注解。特别的是，这个补充数据集还多了局部化叙事（Localized Narrative）注解，这是一种全新的多模式注解决方案式，可以在对象描述上同步语音、文本和鼠标轨迹。

Google提到，局部化叙事的目的之一，便是研究以及利用视觉和语言之间的关联，配对图像以及人类撰写的描述，也就是为图像加上图说。而图像加图说的限制，则是缺乏视觉基础，也就是无法将图像内容对应到文本描述中，（下图中）过去的方式是将文本描述中的名词，在图像中以各种颜色搭建出最小边界框（Bounding Box）。

而在Google的局部化叙事中（上图右），每个在文本描述中的单词都是基础，局部化叙事由注解者产生，注解者提供图像的语音描述，并同时将光标移到描述的图像区域上，Google表示，语音注解是方法的核心，因为可以将描述和参照的图像区域关联起来。而为了使描述更容易访问，注解者会手动转录他们的描述，并与自动转录的结果进行比对，以恢复描述的时间戳，确保语音、文本和光标轨迹正确且同步。

由于同步语音和光标指示很直观，所以Google并没有给注解者很明确的任务说明，因此注解者可能会以螺旋或是画下底线的方式在图上注记，而这可能为Google未来的用户接口设计研究，带来新的想法。新加入的局部化叙事注解数据集非常丰富，鼠标轨迹总长有6,400公里，不停播放所有的描述语音，则需要花费1.5年的时间。

在Open Images V6中，Google还增加视觉关系类型注解，添加像是男人踩着滑板、男人女人牵着手，以及狗接住飞盘等范例（下图）。Google提到，在计算机视觉中，图像中的人是计算机视觉感兴趣的重点，而对于许多应用程序来说，了解图像中人们的行为则至关重要。Open Images V6还包含了跳跃、微笑和躺下等独立动作。另外，Google也增加了2,350万个经人工验证的图像等级标签，因此现在于2万类别中，已经有接近6,000万个标签。