在以图片识别技术过滤平台上的暴力及攻击内容后,脸书周四在儿童安全黑客马拉松(Child Safety Hackathon)宣布将儿童性犯罪、恐怖主义宣传及血腥暴力的视频和图片识别工具开源出来。
脸书引用第三方数据指出,科技业通报的儿童性剥削的视频数量一年来增加了541%,脸书此次开源可让产业合作伙伴、小型开发商及非盈利机构更迅速识别有害视频或照片。目前二项算法开源项目已经通过GitHub分享出来,提供各种类型有害内容的数字指纹(散列)。已经有内容比对技术的单位则可多一层防护,通过散列分享系统互通有无。
现行常见的视频或照片识别技术包括pHash、微软的PhotoDNA、aHash和Hash等。脸书的PDQ及TMK+PDQF则能侦测二个相同或几乎完全相同的照片和视频。其中PDQ为照片比对算法,是脸书以pHash为主要基础、全新开发有独立软件实例的算法。图片比对技术TMK+PDQF,则是由脸书人工智能研究院(AI Research)团队与意大利摩德纳雷焦艾米利亚大学(University of Modena and Reggio Emili)合作开发而成。
脸书全球安全部门主管Antigone Davis及集成部门副总裁Guy Rosen指出,这两项技术优点在于,能将文件以很短的数字散列(digital hash)形式存储,判断两个文件是相同还是相似,甚至没有原始视频或照片也可以进行。脸书识别出平台上的有害内容,像是恐怖主义宣传时会将之移除,并以算法等其他技术产出散列值。这些散列值可方便分享给其他公司或单位,例如全球反恐怖主义网络论坛(Global Internet Forum to Counter Terrorism, GIFCT)来过滤同样的内容。
脸书说,PDQ和TMK+PDQF是为比对大量内容而设计,支持video-frame-hashing及即时应用。迄今脸书已经将之用来比对过平台上数十亿则的视频和照片。
脸书今年5月和马里兰大学、康奈尔大学、加州大学伯克利分校和麻省理工学院合作开发强化侦测视频、照片的技术,以抓出企图躲过侦测算法的违规内容。
10年前微软也曾捐赠PhotoDNA于类似计划。Google也于去年将内容安全(content safety)API提供给非盈利组织及合作伙伴,以打击儿童色情内容。