Meta发布最新的物体侦测研究,采用新方法的ViTDet模型,在LVIS(Large Vocabulary Instance Segmentation)资料集的计算机视觉表现优于其他基于ViT(Vision Transformers)的模型。ViTDet不仅能够侦测桌椅等标准物体,还能够找出包括喂鸟器、花圈和甜甜圈等物品。
这项研究之所以重要,是因为物体侦测是计算机视觉一个重要的任务,应用范围从自动驾驶、电子商务甚至是增强实境,要使物体侦测更有用,就需要能够识别出更多不常见的对象,或是在训练资料中很少出现的对象。
以过去物体侦测的任务来说,FPN(Feature Pyramid Networks)基本上是标准设计,但Meta这项新研究,显示这并非必然,仅从单一尺度的特征图,就可以构建简单的特征金字塔,不需要用到过去常见的FPN设计,直接使用ViT最后一层特征,就可以重建出FPN,这样的做法更为简单主动,对运算性能来说,内存使用下降,训练和推理的速度也更快。
新的ViTDet模型受益于其更大的主干,以及更好的MAE(Masked Autoencoders)预训练方法,即便ViTDet模型运算量少上许多,但是性能仍优于过去的领先方法。Meta现在于开源Detectron2物体侦测函数库中发布ViTDet程序代码和训练方法,作为新的基线。