脸书新的计算机视觉技术DINO以自我监督式学习

脸书与法国国家信息与自动化研究所(Inria)合作,开发了一种称为DINO的人工智能算法,使用无监督式方法来训练Vision Transformers (ViT),也就是说,这个新模型将可以在没有监督且没有目标分割物体的情况,从视频或是图像中发现和分割出物体。

分割物体有助于简化任务,像是要置换视频通话的背景,或是训练机器人在环境中正确的导航,都会用到该项技术,研究人员提到,过去分割物体被视为计算机视觉中困难的挑战之一,因为要求人工智能必需要真正了解图像内容。

过去分割物体都要采监督式学习,并使用庞大带有注解的训练资料,像是需要使用带有狗标签的图片,来教人工智能模型识别狗。而研究人员现在所发布的DINO,证明只需要自我监督和合适的架构,就能够精确地分割物体,通过结合Transformers以及自我监督式学习,DINO已能够深度理解图像和视频。

Transformers被大量应用在自然语言处理上,而在过去一年更有许多开创性的发展,像是Transformers已经被用于图像分类和侦测物体等计算机视觉应用,而研究人员提到,使用大量非监督资料来预训练基于Transformer的图像表达,在这个研究领域带来了新的进展。用DINO算法训练ViT,研究人员观察到模型会自动学习可解释的表达,并将主要物体和杂乱背景分开,还学会在没有任何人为注解下分割物体。

另外,虽然高性能计算在计算机视觉应用中是重要的部分,但是高效率算法也非常重要,让开发人员可以不需使用大规模计算资源,就能够训练模型,在公开DINO的同时,研究人员也分享了有关新模型训练方法PAWS,该方法能使用较少的计算量获得良好的结果。

研究人员表示,使用PAWS来训练标准ResNet-50模型,只要使用ImageNet中百分之一的标签,就可以获得绝佳的准确性,且预训练步骤能比过去的方法减少10倍。人工智能研究团队可以利用DINO和PAWS来构建最新的计算机视觉系统,而这些系统可以大幅降低对标签资料以及大量计算资源的依赖。