脸书更新照片替代文本生成模型,现可描述超过1,200种概念

脸书改善其无障碍浏览体验,让视觉障碍的用户,能够更容易地理解照片内容,其最新自动替代文本(Automatic Alternative Text,AAT)技术,能够侦测和识别的概念扩大10倍,因此可以对更多类型的照片加上描述,而且描述也多了许多细节,能够提供相对位置,还有主要和次要物体等额外信息。

屏幕阅读器可以使用合成语音,念出脸书上图片的替代文本,让视觉障碍者理解图片的内容,但是有许多照片并没有被加上替代文本,所以为了解决这个问题,脸书在2016年引入AAT技术,使用物体识别功能按需求生成照片描述,改善视觉障碍理解图片的能力。

新的AAT拥有非常先进的技术,可以生成包含相对位置信息等额外描述,生成的信息不再只是照片中可能有5个人,而是照片中心有两个人,其他三人分散于边缘,这暗示着中间两人是照片的焦点,脸书还举例,过去照片描述可能简单地以一栋房子和一座山,来描述风景优美的照片,而新AAT技术能够强调山和房子的相对大小,来强调山才是照片中的主体。

过去脸书使用监督式学习方法,用数百万个样本来训练深度卷积神经网络,让AAT模型可以识别常见的100个概念,诸如树、山和室外等。但为了要扩大可识别对象的数量,并且完善AAT模型的描述方式,脸书放弃使用需要人工标记资料的完全监督式学习,脸书提到,虽然这个方法可以提供高精确度结果,但是标记资料耗费大量的人力资源,而这也是原始AAT模型只能识别100种物体的原因,这是一个无法扩展的方法。

而最新的AAT技术使用了一个强大的模型,该模型是以数十亿张Instagram公开照片,和Hashtag组成的弱监督资料训练而成,脸书对其进行了微调,从所有地理位置采样训练用照片,并且使用多种语言的主题标签,同时脸书还评估了性别、肤色和年龄来评估概念,使得模型更加准确,也在文化等各方面更具包容性,像是模型会尽可能以各地的传统服饰,来识别婚礼,而不是只有穿着白色婚纱才是婚礼照片。

现在AAT模型可以识别1,200多种概念,是2016年版本的10倍多,即便AAT模型仅会提供高阈值的结果,但是仍存在一定的误差,因此脸书会在每个描述的开头,都加上“可能”字样,并且忽略AAT模型无法可靠识别的概念。

新的AAT模型还能提供细节,除了默认的简洁描述之外,用户可以选择取用具有更多细节的描述,包括照片中元素的数量,以及添加一些默认描述未提及的元素,而且详细说明也会包括简单的位置消息,包括上下左右等,而对于物体的突出程度,也会以主要、次要和附属等词汇,来描述图片元素的重要性。