Google发布地理多样性图片说明资料集

Google发布图片说明评估资料集Crossmodal-3600,该资料集可作为语言图像说明的基准,使研究人员可以更可靠地研究该领域。Crossmodal-3600以36种语言,对世界各地不同的3,600张照片,加上261,375个人工生成的参考说明,研究人员提到,Crossmodal-3600的图片说明品质很好,而且在不同语言中维持风格一致。

替图像自动产生说明是近年新兴的机器学习领域,针对给定的图像自动生成自然语言文本,这项工作有助改善视障用户的可访问性,Google提到,目前用于图像字幕的资料集主要以英文为主,只有少数资料集涵盖有限数量的语言,而且这些资料集无法表现全球文化的丰富性和多样性,也就阻碍了各种语言对图片说明的研究。

Crossmodal-3600包含36种语言,由人工手动对Open Images资料集中3,600张具地理多样性的图片,添加261,375个人工生成的参考说明。研究人员选择英语之外的30种语言,大致根据网络内容所占的百分比,另外,他们还另外选择了5种资源较少的语言,将英文当作基准,最终产生36种语言的图片说明。

Crossmodal-3600中的图像使用具有元数据的Open Images资料集,但因为有许多区域使用一种以上的语言,而且这些图像并没有良好地覆盖部分区域,因此研究人员设计了算法,来最大化所选图像和目标语言区域之间的对应关系。

Google在各语言区域都对应了100幅图像,总共3,600张图片用36种语言进行注解,每种语言平均有两种注解,总共产生261,375个图说。经过训练的模型会先对图片产生初始的图说,Google再请注解者评估模型产生的说明,并且随后要求注解者单独对每张图像,添加目标语言的描述性说明,Crossmodal-3600资料集便是由这些注解者编写的说明组成。

研究人员通过训练4种图片说明生成模型变体,并使用Crossmodal-3600资料集,比较CIDEr指标和人工评估的输出,研究人员提到,CIDEr分数差异与人工评估有很强的关联性,也就是说Crossmodal-3600可针对英语之外的语言,实现自动比较图片说明品质。