为了加速自然语言处理模型可以应用于多种不同的语言,脸书开源发布跨语言句子矢量计算工具LASER(Language-Agnostic SEntence Representations),该工具支持超过90种语言,让自然语言处理模型可以简单地转换到另一个语言上,包含那些训练数据较少的语言,像是卡拜尔语、维吾尔族语,甚至连方言也包含在内,特别的是,LASER是将所有语言嵌入到一个共同矢量空间,而非每个语言有独立的模型。
LASER工具会将每个句子不同语言的数据,一并导入高维度的空间中,目的就是让相同意思的句子能够在同一个邻近区域,输出的数据可以被视为一个在语义矢量空间中通用的语言,脸书研究团队发现,在矢量空间中的距离,与句子的语义相近程度有强烈的相互关联。
脸书采用的方法即是通过目前的神经机器翻译技术Seq2seq,将所有语言输入至5层的双向长短时记忆(bidirectional LSTM)网络,再用一个共同的解码器产生语言的输出结果,不同的是,脸书是用1,024维度固定大小的矢量,来表示输入的句子,如此一来,能够比较句子的表示法并将其直接送入分类器中。
脸书表示,LASER是第一个可以在一个模型中,处理多种语言的函数库,该研究成果能够协助脸书开发自然语言处理相关的功能,像是在一个语言中,将电影评价分为正评和差评,再快速布署到其他100多种语言。