Google发布最新的人工智能偏见改善工作,在Open Images资料集,添加更具包容性注解的人物资料集(More Inclusive Annotations for People,MIAP),这个系列包含更完整的定界框注解,每个注解具有公平性属性。这项工作是Google负责任人工智能研究的一部分,Google希望能够通过这项工作,鼓励已经采用Open Images资料集的研究人员,把公平性也纳入研究中。
Open Images资料集在2016年的时候发布,内置900万张图像以及600个类别的定界框注解,过去该资料集经过多次更新,以提高注解的多样性。虽然Open Images资料集的标签范围很广,但是缺乏敏感属性,甚至于用该资料集训练的机器学习模型存在公平性疑虑,尤其是在计算机视觉领域的应用。
原始Open Images资料集中的每个图像,都存在注解以描述定界框中的物体,而为了避免同一个物体存在太多定界框,于是当时Google使用了标签候选集,利用阶层去除重复资料的方法,移除了不具体的类型,像是图片内容有猫和洗衣机,则定界框会被注解为猫和洗衣机,但是原本描述猫的动物标签便被移除。
但是这种阶层删除重复资料的方法,从原始注解中加入根本限制,强化了女性/女孩和男性/男孩之间的区别,Google举例,当注解者被要求对一张班级照片,加上上女孩的注解,注解者会跳过所有男孩,并且可能会在女性人物上加上女孩注解,决定加上注解与否,取决于注解者的文化背景,以及对于年龄的评估,导致每张图像的标签可能不一致。
而Google新的MIAP资料集,则是要解决Open Images资料集中,人、男人、女人、男孩和女孩共5个人物阶层类别的问题,避免注解者自身对于性别和年龄的偏见,影响资料集的公平性。新的资料集不再要求注解者添加性别和年龄相关的属性注解,而是仅加入无关性别和年龄类别定界框。
Google提到,性别并非二元,每个人对自己的性别认同,与他人的预期可能不符,因此这个注解决方案法的改变,也可以降低无意识偏见对注解的影响。MIAP增加了大量过去没有采用的定界框属性,在包含人物的10万张图片中,人物定界框的数量,从36万上升到45万,这些定界框对人物侦测模型,提供了更多基本事实信息,并且使得计算机视觉可以更具公平性。