AWS发布一篇跨语言迁移学习技术的论文,将具有足够训练数据的语言模型,通过迁移学习转移至较稀少训练数据的语言,AWS过去曾将英语语言处理模型转移至德语,这次则是更进一步,实验将英语转移至日语。
由于欧洲语言和日语之间的字符(character)无法配对,这两种语言之间的转换较为困难,为了解决这个问题,AWS将日语字符和音译的罗马字母一起当作日语系统的输入数据,AWS也执行了额外大量的实验,来找出英语模型的哪些部分可转移至日语。
AWS的实验中使用了两个公开数据集,比对罗马拼音化日语文本的转移模型和用相同数据训练从头训练的模型,在这两个数据集中,转移模型的F1 score都分别改善了5.9%和7.4%,表示模型更稳固。
AWS英语和日语转换模型的目标是识别名称实体(entity),或是识别语句中的名称类别,像是歌曲名称、运动队伍名称或是城市名等。模型的输入数据包含词向量和字符矢量两种类型的矢量,这些矢量是由神经网络生成,将输入的语言数据用矢量或是字符串表示,这些矢量投射到多维度的空间后,能够指出数据之间的相似度,在自然语言理解系统中,像是名称实体识别器,通常是两个词向量相似度越高,也代表着两种有相似的语义。
而产生字符矢量的网络首先会将字词拆分城多个组件,像是两个字母、三个字母等,字符矢量空间的相近度能够显示字词子组件的相似度,字符矢量通常能够作为词向量有用的补充,因为字符矢量可以使机器学习系统,针对不熟悉字词的意义,根据字根、前缀和后缀产生的猜测。
在AWS的语言模型中,每个输入词的字符都会分别送入双向长短期循环神经网络(bi-LSTM)中,该网络会依次处理输入数据,因此每一个输出都能够反应之前的输入和输出数据,接着,AWS将该网络输出的字符矢量和词向量,一起放入另一个双向长短期循环神经网络中,这个网络按照顺序处理输入语句的单词,产生一个丰富的矢量表示输出,因此输出够找出每个输入单词的字根、词缀(affix)、本意和语句中的上下文信息。最后再将该输出数据放到另一个分类实体名称的网络中。