Meta在先前发布了Data2vec模型,这是同时以同一方式学习三种不同模式,分别为语音、图片和文本的高性能自我监督算法,而Meta现在发布Data2vec 2.0,这个新的算法更快更有效率,速度达当前热门计算机视觉自我监督算法的16倍。
官方提到,近期人工智能技术的突破,都是采取自我监督式学习,但是当前算法有几个明显的限制,包括通常只能用于单一模式,像是图像或文本,并且需要大量的运算能力。这显然与人类的学习方式不同,人类的学习效率更高,并且习惯从不同类型的资讯中学习,而不仅依赖文本、 语音或其他单独的学习机制。
Data2vec算法便是Meta在这方面的突破,使得文本理解等技术更容易应用在图像分割或是语音翻译等应用,而Data2vec 2.0新演算则是朝这个目标更进一步,效率大幅提升,在能够以16倍的速度,完成与现有热门计算机视觉自我监督算法相同准确度。
研究人员解释,自我监督学习的想法,是让计算机借由简单地观察世界,来学习图像、语音和文本结构,而这产生了诸如语音模型Wav2vec 2.0、计算机视觉模型MAE,以及用于自然语言处理模型BERT,但是这些系统对于运算的要求很高,训练大型模型需要庞大的GPU计算资源。
Data2vec 2.0与Data2vec算法类似,针对资料的脉络化(Contextualized)表示进行预测,而非只是图像的像素、文本段落或是语音的单音。研究人员提到,这和大多数的算法不同,这代表算法将整个训练范例纳入考量,像是考量整个出现Bank这个单词的句子,就更容易了解其正确含义,由于脉络化目标带来更丰富的学习任务,因此Data2vec 2.0也就比其他算法学习的更快。
研究人员使用基准测试Data2vec 2.0,测试其在计算机视觉、语音和文本任务的表现,了解新的算法与其他模型的差异。研究人员以ImageNet-1K图像分类基准评估Data2vec 2.0,发现准确度可媲美MAE,但是速度要快16倍,给Data2vec 2.0更多时间也就能达到更高的准确度,但是仍然比MAE快得多。
语音方面则是使用LibriSpeech语音识别基准进行测试,Data2vec 2.0执行速度是Wav2vec 2.0的11倍以上,达类似准确度。自然语言处理任务则使用GLUE基准测试,其以RoBERTa一半的时间,获得相同的准确度。