Google发布端到端语音翻译模型,还能保留原本的声音特征

Google发布能够直接将一种语言的语音,转换为另一种语言语音的模型Translatotron,通过单一的注意力Seq2seq网络来直接翻译语音,中间不需要借助文本数据的转换,由于避开了分阶段式的转换步骤,因此,该模型具有较高的性能,且降低了语音识别和翻译过程中的错误风险,直接将原本的语言转换为目标语言的语言,也能够更好地处理语句中不需要翻译的词句,像是名称或是特定名词。

语音之间的翻译系统的目的,是为了帮助讲不同语言的人沟通,这类的翻译系统通常会包含三个不同的技术,分别为自动语音识别、机器翻译和文本转语音生成技术,将一个语言的语音转为文本后,通过机器翻译转换成另一个语言,再用语音生成技术创造目标语言的语音,Google AI研究院从2016年开始打造Translatotron模型,该模型是端到端的语音翻译模型,研究结果发现,直接翻译语音的方式,比起过去分段翻译的方式更为有效。

Translatotron模型是通过Seq2seq网络,输入数据为原本语言的声谱图(spectrograms),产生翻译成目标语言内容的声谱图,另外Translatotron模型还加入了两个分别训练过的网络:将输出声谱图转换为时域波形的神经声码器(vocoder)、在生成翻译语音时用来维持原始声音特征的编码器,使得翻译语音听起来更自然,在训练的过程中,生成目标语言的声图谱时,Seq2seq模型利用多任务目标学习法,同时预测来源和目标文本,不过,过程中没有任何中间的文本当作参考数据。