脸书发布图像相似性资料集,促进图片变造侦测技术发展

为了要打击恶意改图,脸书现在发布图像相似性(Image Similarity)资料集,提供用于侦测线上有害图像变造的基准。图像相似性资料集含有超过100万张的图像,其中有5万张是由脸书所提供的查询图像。另外,脸书还举办了挑战赛,以20万美元的奖励,广邀研究人员来比赛,切磋侦测图片变造的能力。

社交媒体上的错误消息以及平台遭到滥用的情况,使得不少相关团体着手提出解决方案,除了事实核实之外,还积极打击伪造图像,包括发展深度伪造(DeepFake)、恶意迷因侦测等技术,而脸书提到,最佳的解决方案,必需要与社群合作,因此他们集结众人之力,创建了目前已知最大的图像相似性资料集,内置包括由人或是自动编辑的图像。

虽然大多数的用户,都是出于良性或是娱乐的目的后期图像,不过却有部分恶意人士,通过变造图像来传播错误、暴力和仇恨消息,而这可能使其他人受到伤害。

社交媒体运用内容关注和图像相似性来阻挡,可能对社会产生负面影响的图像或是视频传播,通过结合人工和自动侦测工具,希望尽早发现裸露、暴力和已知错误的消息,但是人工审查并无法大规模处理图像,因此提高机器学习模型的识别能力,才能够有效改善这样的问题。

图像相似性指的是从大量不相关的图像,找出遭到变造的图像来源,这个技术并非是全新的概念,早被用于内容审查领域,诸如错误消息、侵犯版权和诈骗等。图像相似性检测,是一种视觉内容关注方法,脸书提到,图像相似性检测的发展并未受到重视,针对象是分类或物体识别等,针对其他视觉任务发展的模型,并无法在图像相似性侦测上良好作用,而且缺乏大型标准化数据源,无法测量图像相似性算法的性能,也阻碍了相关研究。

因此经过变造的图片,通常能够避开不够强大的自动图像检测系统。为了要改进侦测系统的能力,脸书创建了Image Similarity资料集,希望让基于机器学习技术的系统,能够通过强化预测视觉内容相似性,使得线上服务可以大规模侦测遭到变造的图像。

图像相似性资料集能够作为相似检测的基准,其包含100万张的图像,和5万张由人工与非人工编辑转换的查询图像。为了避免这个人信息料集被恶意人士滥用,脸书将会先开放给同意资料集限制条款的挑战赛参与者访问,在挑战赛之后,脸书就会开放资料集,其他研究人员也只要同意使用条款,就可拿来研究使用。